Page 45 - 《应用声学》2020年第2期
P. 45
第 39 卷 第 2 期 谢将剑等: 多特征融合的鸟类物种识别方法 203
为了克服样本不平衡的问题,引入加权交叉熵损失
3 实验结果与分析
函数作为模型的损失函数,该方法通过提高少样本
3.1 模型训练设置 类别在损失函数中的权重,进而解决不平衡数据的
实 验 在 Ubuntu16.04 64 位 系 统 下, 基 于 深 问题。对于多类别分类时,改进后每个 batch中第 j
度学习框架 Tensorflow1.4.1 完成,采用的硬件平 (j = 1, 2, · · · , 32) 个样本属于第 i(i = 1, 2, · · · , 35)
台为 E5-2620CPU (6×2.1 GHz,32 GB 内存) 和 类时的交叉熵损失函数值如式(2)所示:
a
a
GTX1080ti GPUs (11 GB内存)的工作站。 WCE ij = −ω i y i lg y − (1 − y i ) lg(1 − y ), (2)
i
i
实验时,3 个鸣声语图样本集均按照 8 : 1 : 1 的
式 (2) 中,ω i 是类别 i 的权值;y i 为该样本是否属于
比例被随机划分成训练集、验证集和测试集,用于
类别 i 的实际标签,属于则为 1,不属于则为 0;ˆy i 为
本文提出的识别模型的训练、验证以及测试,具体
该样本预测为类别 i 的概率。类别 i 的权值 ω i 可由
的实验流程如图3所示。
式(3)计算得到:
ᲞܦηՂ
1 − β i
ω i = , (3)
Ѭҟ + Ѭࣝ + ҫቔ β i
式(3) 中,β i 是所有训练样本集中属于类别 i 的样本
ၷੇឦڏ
数占总样本集大小的比例。
ឦڏನవᬷ 进一步得到代价函数为
ᝫጷᬷ ᰎᬷ តᬷ 32
(80%) (10%) (10%) 1 ∑
Cost = β i · WCE ij . (4)
32
ᝫጷ ᰎ j=1
۳̆ܳྲढ़ᚸՌᄊᲚዝྭመគѿവی 3.2 单一特征模型和融合模型性能对比
选择持续时间为 500 ms 的语图作为语图样本
ྭመគѿ
集,首先分别训练 3 个基于 VGG16 的特征迁移模
图 3 识别模型训练流程图 型,然后将3 个模型的特征提取部分进行冻结,通过
Fig. 3 Train flow of recognition model 全连接层组合形成融合模型,再训练融合模型的分
类器部分的参数,得到最终的融合模型。
在训练过程中,为了加快数据的处理速度,将
通常利用平均识别准确率 (Mean average pre-
数据集分成多个分区 (Batch),适当增大分区大小
cision, MAP) 来评价识别模型的好坏,本文提出模
(Batchsize)可以提高训练的效率。综合考虑到实验
型的MAP计算公式如式(5)所示:
用的电脑内存有限,选择分区大小为 32。模型训练
35
的参数如表2所示。 ∑
AveP(q)
q=1
表 2 训练参数 MAP = , (5)
35
Table 2 Train parameters
式(5)中,q 为鸟类物种的编号,AveP(q)为对应物种
参数类型 值或方法 的识别正确率。
初始化 正态分布的随机初始化 图 4 为不同模型在验证集上的 MAP 随着迭代
优化算法 Adam 次数增加的变化,Ch 代表 Chirplet 语图特征模型,
分区大小 32 Mel代表梅尔语图特征模型,Spe代表STFT语图特
学习率 0.001 征模型,Fuse代表融合模型。
指数衰减 0.8/100 步
从图 4 中可以看出,融合模型在 76 次迭代中达
损失函数 加权交叉熵函数
到最大MAP值,而其他模型要到 250次以后才趋于
从表 1 可以看出不同鸟类的语图数量相差较 最大 MAP 值。融合模型相比单一特征模型达到最
大,属于不均衡样本集,不利于 DCNN 模型的训练。 大 MAP 值的时间要更短,说明融合模型的训练效