Page 164 - 《应用声学》2023年第4期
P. 164

826                                                                                  2023 年 7 月


                                                               识别的性能。谢将剑等           [8]  采用 3种不同语谱图作为
             0 引言
                                                               输入特征并进行特征融合,利用 VGG16 网络进行
                 鸟类是生态系统的重要组成部分。对鸟类活动                          鸟类物种识别,实验表明特征融合模型具有更好的
             及其分布的监测,为了解一个地区的生物多样性变                            识别效果。Puget      [9]  将通过短时傅里叶变换 (Short
             化和气候变化提供了重要的依据               [1−2] 。鸟鸣声是区         time Fourier transform, STFT) 生成的 STFT 语谱
             分鸟类的重要特征。鸟鸣声识别也是目前鸟类物种                            图经过网格化处理后作为 Transformer 神经网络的
             识别普遍采用的方式之一。通过鸟声识别实现鸟类                            输入,并通过Xeno-Canto 鸟声数据库中397类鸟声
             监测具有高效、稳定、范围广的优点,具有巨大的应                           识别,测试后准确率达到 77.55%。邱志斌等                  [10]  将
             用价值。                                              Mel 语谱图输入自搭建的 24 层 CNN 模型中,并通
                 鸟鸣声识别的关键在于减少自然环境下噪声                           过反复执行卷积、池化操作及微调内部参数,在 40
             的影响,提取合适的鸣声特征,匹配分类器进行识                            类鸟类鸣声中识别准确率能达到 96.1%。Liu 等                 [11]
             别。目前,鸟声识别的分类方法大致有 3 种:(1) 基                       提出了一种将双向长短期记忆网络 (Bidirectional
             于模板匹配的分类方法。最常见的是动态时间规                             long-short term memory, BiLSTM)和DenseNet 卷
             整 (Dynamic time warping, DTW) 算法。例如,徐             积神经网络级联组合的鸟声分类模型,将 Mel 语谱
             淑正等   [3]  使用基于音长、Mel 频率倒谱系数 (Mel-                图作为输入,在北京百鸟数据库中 20 种鸟类声频
             frequency cepstral coefficients, MFCC)、线性预测         中平均准确率能达到 92.2%。上述文献 [5–11] 基于
             系数 (Linear prediction coefficient, LPCC) 和时频        深度学习的方法主要以语谱图作为模型的输入,通
             域纹理特征的 DTW算法并结合多种分类器进行鸟                           过 CNN、RNN 等网络进一步提取高等级特征进行
             声识别。此类算法时间复杂度较高,容易受到噪声                            分类识别,取得了良好的识别效果。但上述文章均
             干扰。(2) 基于传统机器学习的分类方法。此类方                          未考虑噪声对于网络性能的影响。鸟鸣信号在自

             法多采用手工提取特征,利用支持向量机 (Support                       然环境中获取,往往包含大量噪声,为了增强对含
                                 [4]
             vector machine, SVM) 、随机森林 (Random for-           噪鸟鸣声特征的学习能力,本文受深度残差收缩网
             est, RF) [3]  等分类器进行识别。例如,张赛花            [4]  提   络 (Deep residual shrinkage networks, DRSN) [12] 、
             取了一种 Mel 子带参数化特征,使用 SVM 对野外                       卷积块注意力模块 (Convolutional block attention
             11种鸟鸣声进行分类识别,结果表明该方法对11类                          module, CBAM)  [13] 、通道注意力(Efficient channel
             鸟声查全率、查准率和 F1-score 均高于 89%。目前                    attention, ECANet) [14]  的启发,结合扩张卷积        [15]
             该类算法正确率的提高多依赖于对特征的优化与                             和残差思想      [16] ,设计了基于 DRSN 和扩张卷积的
             选择,其主要适应于小样本数据集,在样本充足的                            鸟声识别网络,以提高模型在自然场景下鸟声识别
             情况下识别效果低于深度学习的方法。(3) 基于深                          的分类精度。本文的主要工作如下:
             度学习的方法。深度学习网络具有很好的自动学习                                (1) 提取鸟鸣声信号的对数 Mel 特征及其一阶
             特征的能力,近年来在鸟类物种识别中得到了广泛                            和二阶差分系数组成 log-Mel 特征向量作为网络模
             的应用并取得了良好的效果。例如,Cakir等                 [5]  提出    型的输入。
             了基于卷积递归神经网络(Convolutional recurrent                   (2) 设计了更加高效的深度残差收缩模块。结
             neural networks, CRNN) 的方法实现鸣声的高维                 合 ECANet 网络的思想对 DRSN 进行改进,即通过
             特征及短时帧间的相关性特征提取,对 Freesound                       一维卷积替代 DRSN 模型注意力机制中的两层全
             数据中的鸟鸣声进行分类实验,正确率达到 88.5%。                        链接,降低参数量的同时增强对含噪鸟鸣声的特征
             冯郁茜   [6]  提出了基于双模态特征融合的鸟类物种                      学习能力。
             分类算法,融合卷积网络提取的语图特征和长短                                 (3) 基于扩张卷积、残差连接和结合空间注意
             时记忆结构提取的鸣声时序序列特征,自适应完                             力机制构建局部特征提取模块,将提取到的局部特
             成鸟鸣声的物种识别。Naranchimeg等             [7]  利用卷积      征输入 BiLSTM,考虑时间依赖性关系进一步提取
             神经网络 (Convolutional neural networks,CNN)提         全局特征。
             取语图特征并且提出跨模态结合特征,提高了分类                                (4) 在北京百鸟数据 birdsdata 鸟声库上进行
   159   160   161   162   163   164   165   166   167   168   169