Page 142 - 《应用声学》2020年第3期
P. 142
462 2020 年 5 月
试集,可以有效地防止过拟合造成的识别率虚高情 可以进一步提高,后续工作将进一步研究如何在整
况。依次选择2种、3种、4种、5种鸟的鸣声进行特征 个模型网络中引入鸟类相关先验知识。本文可为鸟
提取与种数识别。为便于比较,各算法按照识别率 类识别与保护、湿地生态环境监测和动物行为学研
从低到高的顺序依次列于表2。 究等领域提供应用方法上的理论参考,也为计算机
语音与图形搭建了联系的桥梁。
表 2 识别率对比
Table 2 Comparison table of recognition
rate 参 考 文 献
(单位: %)
[1] Qi J G, Gage S H, Joo W, et al. Soundscape charac-
识别率 2 种 3 种 4 种 5 种
teristics of an environment: a new ecological indicator of
LBP+SVM 97.5 92.7 93.75 86.4 ecosystem health[M]//Ji W. Wetland and water resource
modeling and assessment. New York: CRC Press, 2008:
LBP+RF 98.5 93 87 84.6
201–211.
HOG+RF 99 94.6 95 91.2 [2] 雷富民, 王钢, 尹祚华, 等. 鸟类鸣唱的复杂性和多样性 [J]. 动
物分类学报, 2003, 28(1): 163–171.
LBP+KNN 100 98.3 96.25 95 [3] Aparna P C. Automatic recognition of birds through au-
HOG+SVM 100 99 96.75 96.5 dio spectral analysis[C]// Fifth International Conference
on Advances in Computing and Communications. IEEE,
HOG+KNN 100 100 98 98 2016: 395–398.
[4] Cheng J, Sun Y, Ji L. A call-independent and automatic
观察并分析表 2 中的数据,在 5 种鸟类鸣声数 acoustic system for the individual recognition of animals:
据参与识别的情况下,原始 VPS-BR 算法下的 6 种 a novel model using four passerines[J]. Pattern Recogni-
tion, 2010, 43(11): 3846–3852.
组合模型平均识别率为 90.47%,而加入 GAN 生成
[5] 王恩泽, 何东健. 基于 MFCC 和双重 GMM 的鸟类识别方
的图片之后,VPS-BR 算法的识别率为 91.95%,比 法 [J]. 计算机工程与设计, 2014, 35(5): 1868–1871.
之原来提升 1.48%。其主要原因一是可用于训练和 Wang Enze, He Dongjian. Bird recognition based on
MFCC and dual-GMM[J]. Computer Engineering and De-
识别的样本数增多,二是增多的数据能够较好地拟
sign, 2014, 35(5): 1868–1871.
合出原有鸟类语音的信息,对训练和识别过程起到 [6] Ptacek L, Machlica L, Linhart P, et al. Automatic recog-
正向作用,表明 GAN 网络确实起到了数据增强的 nition of bird individuals on an open set using as-is record-
效果。 ings[J]. Bioacoustics-the International Journal of Animal
Sound & Its Recording, 2016, 25(1): 55–73.
[7] 程龙, 张华清. 基于改进 MFCC 的鸟鸣声识别方法研究 [J].
4 结论 中国传媒大学学报 (自然科学版), 2017, 24(3): 41–46.
Cheng Long, Zhang Huaqing. Research of birdsong recog-
针对鸟鸣声识别的容噪性能差、高复杂度及收 nition method based on improved MFCC[J]. Journal of
敛困难问题,提出一种融合声纹信息的能量谱图鸟 Communication University of China (Science and Tech-
nology), 2017, 24(3): 41–46.
类识别方法 (VPS-BR),通过描述鸟类鸣声特征谱
[8] Chakraborty D, Mukker P, Rajan P, et al. Bird call iden-
图的声纹特征并进行分类识别。通过 LBP 和 HOG tification using dynamic kernel based support vector ma-
特征分别与 SVM、KNN、RF 分类器算法两两组合 chines and deep neural networks[C]// IEEE International
Conference on Machine Learning & Applications. IEEE,
进行带噪鸟鸣声识别实验,在15种鸟类参与分类的
2017.
情况下,最高识别率可达 92%,验证了 VPS-BR 方 [9] Sevilla A, Glotin H. Audio bird classifification with
法兼具良好的容噪性能与识别鲁棒性,且易于收敛。 inception-V4 extended with time and time-frequency at-
同时表明 VPS-BR 方法不仅对噪声环境有较强的 tention mechanisms[C]. Working Notes of CLEF 2017
(Cross Language Evaluation Forum), Linda Cappellato,
适应性,而且具有较好的识别性能,这是利用图像方 2017, 41: 1–8.
法识别鸣声的初步尝试,而基于深度学习以及多种 [10] 郑光美. 鸟类学 [M]. 北京: 北京师范大学出版社, 2012.
类的特征提取和模型验证是下一阶段的努力方向。 [11] Ludeña-Choez J, Quispe-Soncco R, Gallardo-Antolín A.
Bird sound spectrogram decomposition through non-
GAN网络的增强处理能够进一步增强其识别性能,
negative matrix factorization for the acoustic classification
对 VPS-BR 中所使用的模型进行改进,实验效果还 of bird species[J]. Plos One, 2017, 12(6): e0179403.