Page 164 - 《应用声学》2023年第4期

P. 164

826 2023 年 7 月

识别的性能。谢将剑等 [8] 采用 3种不同语谱图作为
0 引言
输入特征并进行特征融合，利用 VGG16 网络进行
鸟类是生态系统的重要组成部分。对鸟类活动鸟类物种识别，实验表明特征融合模型具有更好的
及其分布的监测，为了解一个地区的生物多样性变识别效果。Puget [9] 将通过短时傅里叶变换 (Short
化和气候变化提供了重要的依据 [1−2] 。鸟鸣声是区 time Fourier transform, STFT) 生成的 STFT 语谱
分鸟类的重要特征。鸟鸣声识别也是目前鸟类物种图经过网格化处理后作为 Transformer 神经网络的
识别普遍采用的方式之一。通过鸟声识别实现鸟类输入，并通过Xeno-Canto 鸟声数据库中397类鸟声
监测具有高效、稳定、范围广的优点，具有巨大的应识别，测试后准确率达到 77.55%。邱志斌等 [10] 将
用价值。 Mel 语谱图输入自搭建的 24 层 CNN 模型中，并通
鸟鸣声识别的关键在于减少自然环境下噪声过反复执行卷积、池化操作及微调内部参数，在 40
的影响，提取合适的鸣声特征，匹配分类器进行识类鸟类鸣声中识别准确率能达到 96.1%。Liu 等 [11]
别。目前，鸟声识别的分类方法大致有 3 种：(1) 基提出了一种将双向长短期记忆网络 (Bidirectional
于模板匹配的分类方法。最常见的是动态时间规 long-short term memory, BiLSTM)和DenseNet 卷
整 (Dynamic time warping, DTW) 算法。例如，徐积神经网络级联组合的鸟声分类模型，将 Mel 语谱
淑正等 [3] 使用基于音长、Mel 频率倒谱系数 (Mel- 图作为输入，在北京百鸟数据库中 20 种鸟类声频
frequency cepstral coeﬃcients, MFCC)、线性预测中平均准确率能达到 92.2%。上述文献 [5–11] 基于
系数 (Linear prediction coeﬃcient, LPCC) 和时频深度学习的方法主要以语谱图作为模型的输入，通
域纹理特征的 DTW算法并结合多种分类器进行鸟过 CNN、RNN 等网络进一步提取高等级特征进行
声识别。此类算法时间复杂度较高，容易受到噪声分类识别，取得了良好的识别效果。但上述文章均
干扰。(2) 基于传统机器学习的分类方法。此类方未考虑噪声对于网络性能的影响。鸟鸣信号在自

法多采用手工提取特征，利用支持向量机 (Support 然环境中获取，往往包含大量噪声，为了增强对含
[4]
vector machine, SVM) 、随机森林 (Random for- 噪鸟鸣声特征的学习能力，本文受深度残差收缩网
est, RF) [3] 等分类器进行识别。例如，张赛花 [4] 提络 (Deep residual shrinkage networks, DRSN) [12] 、
取了一种 Mel 子带参数化特征，使用 SVM 对野外卷积块注意力模块 (Convolutional block attention
11种鸟鸣声进行分类识别，结果表明该方法对11类 module, CBAM) [13] 、通道注意力(Eﬃcient channel
鸟声查全率、查准率和 F1-score 均高于 89%。目前 attention, ECANet) [14] 的启发，结合扩张卷积 [15]
该类算法正确率的提高多依赖于对特征的优化与和残差思想 [16] ，设计了基于 DRSN 和扩张卷积的
选择，其主要适应于小样本数据集，在样本充足的鸟声识别网络，以提高模型在自然场景下鸟声识别
情况下识别效果低于深度学习的方法。(3) 基于深的分类精度。本文的主要工作如下：
度学习的方法。深度学习网络具有很好的自动学习 (1) 提取鸟鸣声信号的对数 Mel 特征及其一阶
特征的能力，近年来在鸟类物种识别中得到了广泛和二阶差分系数组成 log-Mel 特征向量作为网络模
的应用并取得了良好的效果。例如，Cakir等 [5] 提出型的输入。
了基于卷积递归神经网络(Convolutional recurrent (2) 设计了更加高效的深度残差收缩模块。结
neural networks, CRNN) 的方法实现鸣声的高维合 ECANet 网络的思想对 DRSN 进行改进，即通过
特征及短时帧间的相关性特征提取，对 Freesound 一维卷积替代 DRSN 模型注意力机制中的两层全
数据中的鸟鸣声进行分类实验，正确率达到 88.5%。链接，降低参数量的同时增强对含噪鸟鸣声的特征
冯郁茜 [6] 提出了基于双模态特征融合的鸟类物种学习能力。
分类算法，融合卷积网络提取的语图特征和长短 (3) 基于扩张卷积、残差连接和结合空间注意
时记忆结构提取的鸣声时序序列特征，自适应完力机制构建局部特征提取模块，将提取到的局部特
成鸟鸣声的物种识别。Naranchimeg等 [7] 利用卷积征输入 BiLSTM，考虑时间依赖性关系进一步提取
神经网络 (Convolutional neural networks,CNN)提全局特征。
取语图特征并且提出跨模态结合特征，提高了分类 (4) 在北京百鸟数据 birdsdata 鸟声库上进行

159 160 161 162 163 164 165 166 167 168 169