Page 47 - 《应用声学》2020年第2期
P. 47
第 39 卷 第 2 期 谢将剑等: 多特征融合的鸟类物种识别方法 205
整性对于准确识别鸟类物种影响较大。鸟鸣声的音 立 3 个不同语图输入时的基于 VGG16 特征迁移的
节持续时间各不相同,当音节的持续时间小于语图 单一特征模型,然后将其进行加权求和融合得到特
持续时间时,在语图中能够完整显示音节的特征,可 征融合模型。以 ICML4B 鸣声库的 35 种鸟类为研
以提高识别的准确率。而在完整性保证的基础上持 究对象,对比了持续时间为 500 ms 的语图作为输
续时间更长时,得到的语图数量减小,等效于训练样 入时 4 种模型的 MAP 值,特征融合模型较前 3 个模
本数量下降,导致训练的效果下降。 型在 MAP 值和训练效率上均有较大的提升,验证
综上所述,不同语图持续时间会影响模型的识 了本文提出的多特征融合模型的可行性及优势;为
别性能。在数据量足够大时,可以尽量选择较长的 了研究语图持续时间的影响,选择持续时间分别为
持续时间,使每幅语图中的鸣声区域保持完整。如 100 ms、300 ms 以及 500 ms 的语图作为输入,对比
果数据量有限,则需要根据鸟鸣声音节持续时间的 不同模型的 MAP 值,结果表明持续时间 300 ms 的
分布,选择合适的持续时间。 MAP 值最高。对比了不同模型识别不同信噪比鸣
声的识别效果,结果表明多特征融合模型抗噪声的
3.4 不同信噪比时模型的性能对比
能力最强。因此,根据鸟鸣声的音节持续时间分布,
为了对比不同信噪比下不同模型的识别性能,
选择合适的语图持续时间,利用本文提出的多特征
重新整理语图持续时间为 300 ms 时在测试集上的
融合可以提高鸟类物种识别的准确率。而且该融合
实验结果。按照信噪比大小重新整理成3个子集,为
模型的训练参数少,适合于样本数量小的鸣声数据
了保证每个集样本数均衡,分为强噪声集 (信噪比
集的分类和识别,这对于有些珍稀鸟类的识别具有
在 20 ∼ 35 dB)、中噪声集 (信噪比在 35 ∼ 45 dB)
较高的应用价值。
以及低噪声集(信噪比在 45 ∼ 60 dB)。计算得到不
同子集的识别准确率如图8所示。
参 考 文 献
1.0
Ch Mel Spe Fuse
[1] Mielke A, Zuberbühler K. A method for automated indi-
0.8
vidual, species and call type recognition in free-ranging
animals[J]. Animal Behaviour, 2013, 86(2): 475–482.
គѿድए 0.6 [2] Ruiz-Muñoz J F, Castellanos-Dominguez G, Orozco-
0.4
Alzate M. Enhancing the dissimilarity-based classification
of birdsong recordings[J]. Ecological Informatics, 2016, 33:
0.2
75–84.
0 [3] Priyadarshani N, Marsland S, Castro I. Automated bird-
ू ˗ Ͱ
song recognition in complex acoustic environments: a re-
图 8 不同信噪比下的模型的识别精度 view[J]. Journal of Avian Biology, 2018, 49(5): 1–27.
[4] 马克平. 生物多样性监测依赖于地面人工观测与先进技术手
Fig. 8 Precision under different SNR 段的有机结合 [J]. 生物多样性, 2016, 24(11): 1201–1202.
Ma Keping. Biodiversity monitoring relies on the inte-
从图 8 中可以看出,随着信噪比的升高,4 种模 gration of human observation and automatic collection of
型的识别精度都在下降。进一步计算得到强噪声集 data with advanced equipment and facilities[J]. Biodiver-
sity Science, 2016, 24(11): 1201–1202.
和低噪声集上识别精度的相对误差:Ch、Mel、Spe
[5] 杨洋, 汪毓铎. 基于改进卷积神经网络算法的语音识别 [J]. 应
和Fuse的分别为19.64%、17.15%、18.81%和9.73%, 用声学, 2018, 37(6): 940–946.
3 个单一特征模型的下降的数值更大,说明多特征 Yang Yang, Wang Yuduo. Speech recognition based
on improved convolutional neural network algorithm[J].
融合模型的抗噪能力较其他3个模型更强。
Journal of Applied Acoustics, 2018, 37(6): 940–946.
[6] 李云红, 梁思程, 贾凯莉, 等. 一种改进的 DNN-HMM 的语音
4 结论 识别方法 [J]. 应用声学, 2019, 38(3): 371–377.
Li Yunhong, Liang Sicheng, Jia Kaili, et al. An improved
为了进一步提高识别的准确率,本文提出一种 speech recognition method based on DNN-HMM model[J].
Journal of Applied Acoustics, 2019, 38(3): 371–377.
基于 Chirplet 语图、Mel 语图以及 STFT 语图 3 种
[7] Chakraborty D, Mukker P, Rajan P, et al. Bird call iden-
语图特征融合的鸟类物种识别方法。该方法首先建 tification using dynamic kernel based support vector ma-