Page 47 - 《应用声学》2020年第2期

P. 47

第 39 卷第 2 期谢将剑等：多特征融合的鸟类物种识别方法 205

整性对于准确识别鸟类物种影响较大。鸟鸣声的音立 3 个不同语图输入时的基于 VGG16 特征迁移的
节持续时间各不相同，当音节的持续时间小于语图单一特征模型，然后将其进行加权求和融合得到特
持续时间时，在语图中能够完整显示音节的特征，可征融合模型。以 ICML4B 鸣声库的 35 种鸟类为研
以提高识别的准确率。而在完整性保证的基础上持究对象，对比了持续时间为 500 ms 的语图作为输
续时间更长时，得到的语图数量减小，等效于训练样入时 4 种模型的 MAP 值，特征融合模型较前 3 个模
本数量下降，导致训练的效果下降。型在 MAP 值和训练效率上均有较大的提升，验证
综上所述，不同语图持续时间会影响模型的识了本文提出的多特征融合模型的可行性及优势；为
别性能。在数据量足够大时，可以尽量选择较长的了研究语图持续时间的影响，选择持续时间分别为
持续时间，使每幅语图中的鸣声区域保持完整。如 100 ms、300 ms 以及 500 ms 的语图作为输入，对比
果数据量有限，则需要根据鸟鸣声音节持续时间的不同模型的 MAP 值，结果表明持续时间 300 ms 的
分布，选择合适的持续时间。 MAP 值最高。对比了不同模型识别不同信噪比鸣
声的识别效果，结果表明多特征融合模型抗噪声的
3.4 不同信噪比时模型的性能对比
能力最强。因此，根据鸟鸣声的音节持续时间分布，
为了对比不同信噪比下不同模型的识别性能，
选择合适的语图持续时间，利用本文提出的多特征
重新整理语图持续时间为 300 ms 时在测试集上的
融合可以提高鸟类物种识别的准确率。而且该融合
实验结果。按照信噪比大小重新整理成3个子集，为
模型的训练参数少，适合于样本数量小的鸣声数据
了保证每个集样本数均衡，分为强噪声集 (信噪比
集的分类和识别，这对于有些珍稀鸟类的识别具有
在 20 ∼ 35 dB)、中噪声集 (信噪比在 35 ∼ 45 dB)
较高的应用价值。
以及低噪声集(信噪比在 45 ∼ 60 dB)。计算得到不
同子集的识别准确率如图8所示。
参考文献
1.0
Ch Mel Spe Fuse
[1] Mielke A, Zuberbühler K. A method for automated indi-
0.8
vidual, species and call type recognition in free-ranging
animals[J]. Animal Behaviour, 2013, 86(2): 475–482.
គѿድए 0.6 [2] Ruiz-Muñoz J F, Castellanos-Dominguez G, Orozco-
0.4
Alzate M. Enhancing the dissimilarity-based classiﬁcation
of birdsong recordings[J]. Ecological Informatics, 2016, 33:
0.2
75–84.
0 [3] Priyadarshani N, Marsland S, Castro I. Automated bird-
ू ˗ Ͱ
song recognition in complex acoustic environments: a re-
图 8 不同信噪比下的模型的识别精度 view[J]. Journal of Avian Biology, 2018, 49(5): 1–27.
[4] 马克平. 生物多样性监测依赖于地面人工观测与先进技术手
Fig. 8 Precision under diﬀerent SNR 段的有机结合 [J]. 生物多样性, 2016, 24(11): 1201–1202.
Ma Keping. Biodiversity monitoring relies on the inte-
从图 8 中可以看出，随着信噪比的升高，4 种模 gration of human observation and automatic collection of
型的识别精度都在下降。进一步计算得到强噪声集 data with advanced equipment and facilities[J]. Biodiver-
sity Science, 2016, 24(11): 1201–1202.
和低噪声集上识别精度的相对误差：Ch、Mel、Spe
[5] 杨洋, 汪毓铎. 基于改进卷积神经网络算法的语音识别 [J]. 应
和Fuse的分别为19.64%、17.15%、18.81%和9.73%，用声学, 2018, 37(6): 940–946.
3 个单一特征模型的下降的数值更大，说明多特征 Yang Yang, Wang Yuduo. Speech recognition based
on improved convolutional neural network algorithm[J].
融合模型的抗噪能力较其他3个模型更强。
Journal of Applied Acoustics, 2018, 37(6): 940–946.
[6] 李云红, 梁思程, 贾凯莉, 等. 一种改进的 DNN-HMM 的语音
4 结论识别方法 [J]. 应用声学, 2019, 38(3): 371–377.
Li Yunhong, Liang Sicheng, Jia Kaili, et al. An improved
为了进一步提高识别的准确率，本文提出一种 speech recognition method based on DNN-HMM model[J].
Journal of Applied Acoustics, 2019, 38(3): 371–377.
基于 Chirplet 语图、Mel 语图以及 STFT 语图 3 种
[7] Chakraborty D, Mukker P, Rajan P, et al. Bird call iden-
语图特征融合的鸟类物种识别方法。该方法首先建 tiﬁcation using dynamic kernel based support vector ma-

42 43 44 45 46 47 48 49 50 51 52