Page 134 - 《应用声学》2020年第3期
P. 134
454 2020 年 5 月
of 15 original noisy bird sound data sets from the Xeno-Canto website shows that the recognition rate of the
VPS-BR model is better than the MFCC+GMM model; HOG and KNN combined model recognition rate
can reach 90.5%, shows good noise-reception recognition performance. Finally, for the lack of sample data
set, image enhancement is made by using generated-adversarial-network, and the recognition rate is further
increased by 1.48%.
Keywords: Birds recognition; Power spectrogram; Histogram of oriented gradient; Local binary pattern;
Generated-adversarial-network
动识别技术的研究大多采用 MFCC+GMM 识别方
0 引言
法,且集中在提高识别率上,鲜有针对噪声环境应用
和识别耗时的讨论,而抗噪和耗时问题又是识别技
随着国家生态文明建设加速推进,高效快捷评
术能否获得推广应用所面临的重要挑战。
估生态环境质量的方法和技术亟待研究和开发。鸟
鸟类语谱图是研究鸟的生物种类属性的重要
类在生态系统中扮演着重要角色,其群落是环境质
途径 [10−12] ,但是由于种类间谱图特征重合度较高,
量的重要指标,有效监测与识别其分布对保护和评
难以直接用语谱图进行鸟类准确识别。而鸣声能
估生态系统都具有重要意义 [1] 。
量谱图 (Voice-power spectrogram, VPS) 由鸟类语
目前,鸟类识别 (Birds recognition, BR) 一般
依靠人工望远观测法,该法受限于鸟类移动高 谱图间接生成,使用Librosa库可以提取Mel标度谱
度不确定性、移动范围大、识别目标难捕捉等特 图、色度图、光谱对比度和色调质心等特征,最终
点,效率较低。鸣声作为鸟类的重要生物学特征, 使用这些方法生成能量谱图的相关信息。因鸣声
已被证明可以用于鸟类自动识别 [2−3] 。2010 年, 能量谱图兼具频谱分布和时域波形的特点,可较清
Cheng等 [4] 通过提取4种雀形目鸟类的梅尔倒谱系 楚地显示鸣声能量随时间变化的关系,时频域演化
数 (Mel-frequency cepstral coefficients, MFCC) 结 将为鸟鸣声识别提供较为显著的判别信息,且能形
合高斯混合模型 (Gaussian mixture model, GMM) 成每种鸟类对应的鸣声模式,这种特征提取技术属
进行了雀形目鸟类声音识别,但其采用的实验样本 于信号特征提取,主要目的是扩展和隔离每个样本
数偏少,且在噪声环境下的识别性能劣化较为严重。 的重要特征。在能量谱图中,亮度越高表示此段时
2014 年,王恩泽等 [5] 进一步提出一种基于 MFCC 间内鸟鸣声能量越高,不同的鸟鸣声会形成该种类
的新型特征参数 MFCCA 和双重 GMM 模型,识别 特有的鸣声模式,而图像背景亮度较低的地方为环
率有明显提升,但其未讨论该模型在噪声环境下 境噪声与信道噪声。对于单幅图像而言,图像上的
的适应效果。2015年,Ptacek等 [6] 着重讨论了噪声 噪声部分与鸣声主体能量差异大,边缘特征尤其明
背景下的识别问题,提出一种基于 GMM 和通用背 显,使得噪声在鸣声识别过程中整体影响较小;对
景模型 (Universal background model, UBM) 的鸟 整个鸟类鸣声特征图谱鸣声模式而言,虽然不同个
个体识别系统,但其识别率并不高。2017 年,程龙 体鸟鸣声具有差异性,但是与整个鸟类群的鸣声模
等 [7] 提出一种基于经验模态分解改进的 MFCC 算 式上只存在一定合理范围上阈值偏差,即鸟个体的
法,但仍属于 MFCC+GMM识别方法,且提升后的 鸣声与整个鸟类群的鸣声模式差异较小,从而使得
识别率增益不大,识别率为 70.09%。Chakraborty 单幅鸣声谱图不偏离整个鸟类鸣声模式图像。因
等 [8] 使用支持向量机与深度学习技术相结合,但是 此,本文提出的融合声纹信息的能量谱图的鸟类
复杂度较高,识别率没有较大提升。2018年,Sevilla 识别方法 (VPS-BR)考虑到噪声环境和识别耗时的
等 [9] 提出了针对解决生物声学分类问题的深度卷 应用需要,并结合声纹特征在计算机视觉领域的应
技术网络 Inception-V4 的改良版 Soundception,并 用 [13−15] ,具有较大的研究意义与价值。在计算机
使用数据增强策略和两种注意力模型,平均识别 视觉的边缘特征识别领域,主要有具有良好容噪性
准确率 (Mean average precision, MAP) 得分达到 能的方向梯度直方图(Histogram of oriented gradi-
71.4%,在模型训练阶段依赖较高的硬件支持,耗 ent, HOG) [16−17] 与在计算收敛方面表现出较快速
时长且存在各种可拓展的优化空间。因此,综合可 度的局部二值模式(Local binary pattern, LBP) [18]
查阅的一些典型文献来看,目前关于鸟类鸣声自 算子两类。本文使用这两种算子对模型进行测试,