Page 134 - 《应用声学》2020年第3期
P. 134

454                                                                                  2020 年 5 月


                 of 15 original noisy bird sound data sets from the Xeno-Canto website shows that the recognition rate of the
                 VPS-BR model is better than the MFCC+GMM model; HOG and KNN combined model recognition rate
                 can reach 90.5%, shows good noise-reception recognition performance. Finally, for the lack of sample data
                 set, image enhancement is made by using generated-adversarial-network, and the recognition rate is further
                 increased by 1.48%.
                 Keywords: Birds recognition; Power spectrogram; Histogram of oriented gradient; Local binary pattern;
                 Generated-adversarial-network

                                                               动识别技术的研究大多采用 MFCC+GMM 识别方
             0 引言
                                                               法,且集中在提高识别率上,鲜有针对噪声环境应用
                                                               和识别耗时的讨论,而抗噪和耗时问题又是识别技
                 随着国家生态文明建设加速推进,高效快捷评
                                                               术能否获得推广应用所面临的重要挑战。
             估生态环境质量的方法和技术亟待研究和开发。鸟
                                                                   鸟类语谱图是研究鸟的生物种类属性的重要
             类在生态系统中扮演着重要角色,其群落是环境质
                                                               途径   [10−12] ,但是由于种类间谱图特征重合度较高,
             量的重要指标,有效监测与识别其分布对保护和评
                                                               难以直接用语谱图进行鸟类准确识别。而鸣声能
             估生态系统都具有重要意义             [1] 。
                                                               量谱图 (Voice-power spectrogram, VPS) 由鸟类语
                 目前,鸟类识别 (Birds recognition, BR) 一般
             依靠人工望远观测法,该法受限于鸟类移动高                              谱图间接生成,使用Librosa库可以提取Mel标度谱
             度不确定性、移动范围大、识别目标难捕捉等特                             图、色度图、光谱对比度和色调质心等特征,最终
             点,效率较低。鸣声作为鸟类的重要生物学特征,                            使用这些方法生成能量谱图的相关信息。因鸣声
             已被证明可以用于鸟类自动识别                  [2−3] 。2010 年,    能量谱图兼具频谱分布和时域波形的特点,可较清
             Cheng等  [4]  通过提取4种雀形目鸟类的梅尔倒谱系                    楚地显示鸣声能量随时间变化的关系,时频域演化
             数 (Mel-frequency cepstral coefficients, MFCC) 结     将为鸟鸣声识别提供较为显著的判别信息,且能形

             合高斯混合模型 (Gaussian mixture model, GMM)             成每种鸟类对应的鸣声模式,这种特征提取技术属
             进行了雀形目鸟类声音识别,但其采用的实验样本                            于信号特征提取,主要目的是扩展和隔离每个样本
             数偏少,且在噪声环境下的识别性能劣化较为严重。                           的重要特征。在能量谱图中,亮度越高表示此段时
             2014 年,王恩泽等      [5]  进一步提出一种基于 MFCC              间内鸟鸣声能量越高,不同的鸟鸣声会形成该种类
             的新型特征参数 MFCCA 和双重 GMM 模型,识别                       特有的鸣声模式,而图像背景亮度较低的地方为环
             率有明显提升,但其未讨论该模型在噪声环境下                             境噪声与信道噪声。对于单幅图像而言,图像上的
             的适应效果。2015年,Ptacek等          [6]  着重讨论了噪声         噪声部分与鸣声主体能量差异大,边缘特征尤其明
             背景下的识别问题,提出一种基于 GMM 和通用背                          显,使得噪声在鸣声识别过程中整体影响较小;对
             景模型 (Universal background model, UBM) 的鸟          整个鸟类鸣声特征图谱鸣声模式而言,虽然不同个
             个体识别系统,但其识别率并不高。2017 年,程龙                         体鸟鸣声具有差异性,但是与整个鸟类群的鸣声模
             等  [7]  提出一种基于经验模态分解改进的 MFCC 算                    式上只存在一定合理范围上阈值偏差,即鸟个体的
             法,但仍属于 MFCC+GMM识别方法,且提升后的                         鸣声与整个鸟类群的鸣声模式差异较小,从而使得
             识别率增益不大,识别率为 70.09%。Chakraborty                   单幅鸣声谱图不偏离整个鸟类鸣声模式图像。因
             等  [8]  使用支持向量机与深度学习技术相结合,但是                      此,本文提出的融合声纹信息的能量谱图的鸟类
             复杂度较高,识别率没有较大提升。2018年,Sevilla                     识别方法 (VPS-BR)考虑到噪声环境和识别耗时的
             等  [9]  提出了针对解决生物声学分类问题的深度卷                       应用需要,并结合声纹特征在计算机视觉领域的应
             技术网络 Inception-V4 的改良版 Soundception,并             用 [13−15] ,具有较大的研究意义与价值。在计算机
             使用数据增强策略和两种注意力模型,平均识别                             视觉的边缘特征识别领域,主要有具有良好容噪性
             准确率 (Mean average precision, MAP) 得分达到            能的方向梯度直方图(Histogram of oriented gradi-
             71.4%,在模型训练阶段依赖较高的硬件支持,耗                          ent, HOG)  [16−17]  与在计算收敛方面表现出较快速
             时长且存在各种可拓展的优化空间。因此,综合可                            度的局部二值模式(Local binary pattern, LBP)        [18]
             查阅的一些典型文献来看,目前关于鸟类鸣声自                             算子两类。本文使用这两种算子对模型进行测试,
   129   130   131   132   133   134   135   136   137   138   139