Page 46 - 《应用声学》2020年第2期
P. 46
204 2020 年 3 月
率要更高。而且对比单一特征模型,融合模型的最 而影响识别模型的性能。为了研究语图持续时间对
大MAP值也最大。 识别性能的影响,选择持续时间为 100 ms、300 ms
图 5 为 4 种模型的平均识别准确率对比,图中 和 500 ms,分别计算得到 3 个语图样本集。按照本
的MAP值均为5次运算的MAP平均值。 文提出的建模方法得到不同持续时间下的单一特
征模型和融合模型。
1.0
图6为不同持续时间时,不同模型的测试MAP
0.8
对比。
MAP 0.6 从图 6 可以看出,语图持续时间不同时,对于
0.4 同一个模型,持续时间为 300 ms 的 MAP 值最大,
Ch
Mel 100 ms 的最小,而且 4 种模型的变化规律一致。进
0.2 Spe
Fuse 一步对 35 种鸟类鸟鸣声的音节持续时间进行了统
0
0 50 100 150 200 250 300 计分析,得到了不同持续时间的音节数量分布如
ᤖ̽
图 7 所示,71.7% 的音节持续时间在 100 ∼ 300 ms
图 4 不同模型的验证 MAP 随着迭代次数的变化 之间。
Fig. 4 Variation of validation MAPs with epochs 1.0
100 300 500
increasing
0.8
1.0 0.6
ᰎ ត 0.905 0.8943 MAP
0.8 0.4
0.6886 0.6702
0.629 0.599 0.5984 0.5803
0.6
MAP 0.2
0.4 0
Ch Mel Spe Fuse
0.2
图 6 不同持续时间语图下不同模型的测试 MAP
0 对比
Ch Mel Spe Fuse
Fig. 6 Comparison of test MAP with different
图 5 不同模型的验证 MAP 和测试 MAP 对比 model and duration
Fig. 5 Comparison of validation MAP and test
100
MAP with different model
86
80
从图5可以看出:(1) 单一特征模型中,Chirplet
60 58
语图作为输入时的 MAP 时最大,STFT 语图的 ᧚
MAP 最小,和文献 [14] 相吻合;(2) 通过多特征 40 31
25
融合后,融合模型的 MAP 较单一特征模型提升较 20 17
9 11 7
大,相比STFT语图的提升了30%左右。 0
综上所述,将不同特征进行融合,再利用分类 50~100 100~150 150~200 200~300 300~350 350~400 400~450 450~500
器来进行分类的方法可以大大提高模型的识别能 ે፞ᫎ/ms
力,说明本文提出的多特征融合模型是可行的。同
图 7 不同持续时间的音节数量分布
时本文提出的融合模型中,待训练的参数只包含分
Fig. 7 Distribution of syllable quantity with dif-
类器的参数,参数数量相对于 VGG16 模型大大减 ferent duration
少,可以降低对样本数量的需求。
依据统计结果分析可得,持续时间为300 ms时
3.3 语图不同持续时间的性能对比 效果最佳的原因在于:本文提出的方法是基于语图
输入DCNN的图像大小是固定的,选择不同的 中鸟鸣声区域的图像特征实现语图的分类,达到识
语图持续时间,会改变语图中鸟鸣声区域的特征,进 别鸟类物种的目的。因此图像当中鸟鸣声区域的完