Page 47 - 《应用声学》2020年第2期
P. 47

第 39 卷 第 2 期                 谢将剑等: 多特征融合的鸟类物种识别方法                                           205


             整性对于准确识别鸟类物种影响较大。鸟鸣声的音                            立 3 个不同语图输入时的基于 VGG16 特征迁移的
             节持续时间各不相同,当音节的持续时间小于语图                            单一特征模型,然后将其进行加权求和融合得到特
             持续时间时,在语图中能够完整显示音节的特征,可                           征融合模型。以 ICML4B 鸣声库的 35 种鸟类为研
             以提高识别的准确率。而在完整性保证的基础上持                            究对象,对比了持续时间为 500 ms 的语图作为输
             续时间更长时,得到的语图数量减小,等效于训练样                           入时 4 种模型的 MAP 值,特征融合模型较前 3 个模
             本数量下降,导致训练的效果下降。                                  型在 MAP 值和训练效率上均有较大的提升,验证
                 综上所述,不同语图持续时间会影响模型的识                          了本文提出的多特征融合模型的可行性及优势;为
             别性能。在数据量足够大时,可以尽量选择较长的                            了研究语图持续时间的影响,选择持续时间分别为
             持续时间,使每幅语图中的鸣声区域保持完整。如                            100 ms、300 ms 以及 500 ms 的语图作为输入,对比
             果数据量有限,则需要根据鸟鸣声音节持续时间的                            不同模型的 MAP 值,结果表明持续时间 300 ms 的
             分布,选择合适的持续时间。                                     MAP 值最高。对比了不同模型识别不同信噪比鸣
                                                               声的识别效果,结果表明多特征融合模型抗噪声的
             3.4 不同信噪比时模型的性能对比
                                                               能力最强。因此,根据鸟鸣声的音节持续时间分布,
                 为了对比不同信噪比下不同模型的识别性能,
                                                               选择合适的语图持续时间,利用本文提出的多特征
             重新整理语图持续时间为 300 ms 时在测试集上的
                                                               融合可以提高鸟类物种识别的准确率。而且该融合
             实验结果。按照信噪比大小重新整理成3个子集,为
                                                               模型的训练参数少,适合于样本数量小的鸣声数据
             了保证每个集样本数均衡,分为强噪声集 (信噪比
                                                               集的分类和识别,这对于有些珍稀鸟类的识别具有
             在 20 ∼ 35 dB)、中噪声集 (信噪比在 35 ∼ 45 dB)
                                                               较高的应用价值。
             以及低噪声集(信噪比在 45 ∼ 60 dB)。计算得到不
             同子集的识别准确率如图8所示。
                                                                              参 考 文        献
                    1.0
                        Ch  Mel  Spe  Fuse
                                                                 [1] Mielke A, Zuberbühler K. A method for automated indi-
                    0.8
                                                                   vidual, species and call type recognition in free-ranging
                                                                   animals[J]. Animal Behaviour, 2013, 86(2): 475–482.
                   គѿድए  0.6                                     [2] Ruiz-Muñoz J F, Castellanos-Dominguez G, Orozco-
                    0.4
                                                                   Alzate M. Enhancing the dissimilarity-based classification
                                                                   of birdsong recordings[J]. Ecological Informatics, 2016, 33:
                    0.2
                                                                   75–84.
                     0                                           [3] Priyadarshani N, Marsland S, Castro I. Automated bird-
                           ू         ˗         Ͱ
                                                                   song recognition in complex acoustic environments: a re-
                     图 8  不同信噪比下的模型的识别精度                           view[J]. Journal of Avian Biology, 2018, 49(5): 1–27.
                                                                 [4] 马克平. 生物多样性监测依赖于地面人工观测与先进技术手
                    Fig. 8 Precision under different SNR            段的有机结合 [J]. 生物多样性, 2016, 24(11): 1201–1202.
                                                                   Ma Keping. Biodiversity monitoring relies on the inte-
                 从图 8 中可以看出,随着信噪比的升高,4 种模                          gration of human observation and automatic collection of
             型的识别精度都在下降。进一步计算得到强噪声集                                data with advanced equipment and facilities[J]. Biodiver-
                                                                   sity Science, 2016, 24(11): 1201–1202.
             和低噪声集上识别精度的相对误差:Ch、Mel、Spe
                                                                 [5] 杨洋, 汪毓铎. 基于改进卷积神经网络算法的语音识别 [J]. 应
             和Fuse的分别为19.64%、17.15%、18.81%和9.73%,                  用声学, 2018, 37(6): 940–946.
             3 个单一特征模型的下降的数值更大,说明多特征                               Yang Yang, Wang Yuduo.  Speech recognition based
                                                                   on improved convolutional neural network algorithm[J].
             融合模型的抗噪能力较其他3个模型更强。
                                                                   Journal of Applied Acoustics, 2018, 37(6): 940–946.
                                                                 [6] 李云红, 梁思程, 贾凯莉, 等. 一种改进的 DNN-HMM 的语音
             4 结论                                                  识别方法 [J]. 应用声学, 2019, 38(3): 371–377.
                                                                   Li Yunhong, Liang Sicheng, Jia Kaili, et al. An improved
                 为了进一步提高识别的准确率,本文提出一种                              speech recognition method based on DNN-HMM model[J].
                                                                   Journal of Applied Acoustics, 2019, 38(3): 371–377.
             基于 Chirplet 语图、Mel 语图以及 STFT 语图 3 种
                                                                 [7] Chakraborty D, Mukker P, Rajan P, et al. Bird call iden-
             语图特征融合的鸟类物种识别方法。该方法首先建                                tification using dynamic kernel based support vector ma-
   42   43   44   45   46   47   48   49   50   51   52