Page 45 - 《应用声学》2020年第2期
P. 45

第 39 卷 第 2 期                 谢将剑等: 多特征融合的鸟类物种识别方法                                           203


                                                               为了克服样本不平衡的问题,引入加权交叉熵损失
             3 实验结果与分析
                                                               函数作为模型的损失函数,该方法通过提高少样本
             3.1 模型训练设置                                        类别在损失函数中的权重,进而解决不平衡数据的
                 实 验 在 Ubuntu16.04 64 位 系 统 下, 基 于 深           问题。对于多类别分类时,改进后每个 batch中第 j
             度学习框架 Tensorflow1.4.1 完成,采用的硬件平                    (j = 1, 2, · · · , 32) 个样本属于第 i(i = 1, 2, · · · , 35)
             台为 E5-2620CPU (6×2.1 GHz,32 GB 内存) 和              类时的交叉熵损失函数值如式(2)所示:
                                                                                  a
                                                                                                    a
             GTX1080ti GPUs (11 GB内存)的工作站。                       WCE ij = −ω i y i lg y − (1 − y i ) lg(1 − y ),  (2)
                                                                                                      i
                                                                                    i
                 实验时,3 个鸣声语图样本集均按照 8 : 1 : 1 的
                                                               式 (2) 中,ω i 是类别 i 的权值;y i 为该样本是否属于
             比例被随机划分成训练集、验证集和测试集,用于
                                                               类别 i 的实际标签,属于则为 1,不属于则为 0;ˆy i 为
             本文提出的识别模型的训练、验证以及测试,具体
                                                               该样本预测为类别 i 的概率。类别 i 的权值 ω i 可由
             的实验流程如图3所示。
                                                               式(3)计算得到:
                                 ᲞܦηՂ
                                                                                     1 − β i
                                                                                ω i =      ,              (3)
                             Ѭҟ + Ѭࣝ + ҫቔ                                              β i
                                                               式(3) 中,β i 是所有训练样本集中属于类别 i 的样本
                                 ၷੇឦڏ
                                                               数占总样本集大小的比例。
                                ឦڏನవᬷ                              进一步得到代价函数为
                         ᝫጷᬷ      ᰎ᝽ᬷ     ฾តᬷ                                        32
                         (80%)    (10%)   (10%)                                   1  ∑
                                                                          Cost =       β i · WCE ij .     (4)
                                                                                 32
                       ᝫጷ                 ᰎ᝽                                        j=1
                        ۳̆ܳྲढ़ᚸՌᄊᲚዝྭመគѿവی                       3.2  单一特征模型和融合模型性能对比
                                                                   选择持续时间为 500 ms 的语图作为语图样本
                                 ྭመគѿ
                                                               集,首先分别训练 3 个基于 VGG16 的特征迁移模
                         图 3  识别模型训练流程图                        型,然后将3 个模型的特征提取部分进行冻结,通过
                    Fig. 3 Train flow of recognition model      全连接层组合形成融合模型,再训练融合模型的分
                                                               类器部分的参数,得到最终的融合模型。
                 在训练过程中,为了加快数据的处理速度,将
                                                                   通常利用平均识别准确率 (Mean average pre-
             数据集分成多个分区 (Batch),适当增大分区大小
                                                               cision, MAP) 来评价识别模型的好坏,本文提出模
             (Batchsize)可以提高训练的效率。综合考虑到实验
                                                               型的MAP计算公式如式(5)所示:
             用的电脑内存有限,选择分区大小为 32。模型训练
                                                                                     35
             的参数如表2所示。                                                              ∑
                                                                                       AveP(q)
                                                                                    q=1
                             表 2  训练参数                                      MAP =              ,          (5)
                                                                                        35
                       Table 2 Train parameters
                                                               式(5)中,q 为鸟类物种的编号,AveP(q)为对应物种
                     参数类型              值或方法                    的识别正确率。
                     初始化          正态分布的随机初始化                       图 4 为不同模型在验证集上的 MAP 随着迭代
                     优化算法         Adam                         次数增加的变化,Ch 代表 Chirplet 语图特征模型,
                     分区大小         32                           Mel代表梅尔语图特征模型,Spe代表STFT语图特
                     学习率          0.001                        征模型,Fuse代表融合模型。
                     指数衰减         0.8/100 步
                                                                   从图 4 中可以看出,融合模型在 76 次迭代中达
                     损失函数         加权交叉熵函数
                                                               到最大MAP值,而其他模型要到 250次以后才趋于
                 从表 1 可以看出不同鸟类的语图数量相差较                         最大 MAP 值。融合模型相比单一特征模型达到最
             大,属于不均衡样本集,不利于 DCNN 模型的训练。                        大 MAP 值的时间要更短,说明融合模型的训练效
   40   41   42   43   44   45   46   47   48   49   50