Page 164 - 《应用声学》2023年第4期
P. 164
826 2023 年 7 月
识别的性能。谢将剑等 [8] 采用 3种不同语谱图作为
0 引言
输入特征并进行特征融合,利用 VGG16 网络进行
鸟类是生态系统的重要组成部分。对鸟类活动 鸟类物种识别,实验表明特征融合模型具有更好的
及其分布的监测,为了解一个地区的生物多样性变 识别效果。Puget [9] 将通过短时傅里叶变换 (Short
化和气候变化提供了重要的依据 [1−2] 。鸟鸣声是区 time Fourier transform, STFT) 生成的 STFT 语谱
分鸟类的重要特征。鸟鸣声识别也是目前鸟类物种 图经过网格化处理后作为 Transformer 神经网络的
识别普遍采用的方式之一。通过鸟声识别实现鸟类 输入,并通过Xeno-Canto 鸟声数据库中397类鸟声
监测具有高效、稳定、范围广的优点,具有巨大的应 识别,测试后准确率达到 77.55%。邱志斌等 [10] 将
用价值。 Mel 语谱图输入自搭建的 24 层 CNN 模型中,并通
鸟鸣声识别的关键在于减少自然环境下噪声 过反复执行卷积、池化操作及微调内部参数,在 40
的影响,提取合适的鸣声特征,匹配分类器进行识 类鸟类鸣声中识别准确率能达到 96.1%。Liu 等 [11]
别。目前,鸟声识别的分类方法大致有 3 种:(1) 基 提出了一种将双向长短期记忆网络 (Bidirectional
于模板匹配的分类方法。最常见的是动态时间规 long-short term memory, BiLSTM)和DenseNet 卷
整 (Dynamic time warping, DTW) 算法。例如,徐 积神经网络级联组合的鸟声分类模型,将 Mel 语谱
淑正等 [3] 使用基于音长、Mel 频率倒谱系数 (Mel- 图作为输入,在北京百鸟数据库中 20 种鸟类声频
frequency cepstral coefficients, MFCC)、线性预测 中平均准确率能达到 92.2%。上述文献 [5–11] 基于
系数 (Linear prediction coefficient, LPCC) 和时频 深度学习的方法主要以语谱图作为模型的输入,通
域纹理特征的 DTW算法并结合多种分类器进行鸟 过 CNN、RNN 等网络进一步提取高等级特征进行
声识别。此类算法时间复杂度较高,容易受到噪声 分类识别,取得了良好的识别效果。但上述文章均
干扰。(2) 基于传统机器学习的分类方法。此类方 未考虑噪声对于网络性能的影响。鸟鸣信号在自
法多采用手工提取特征,利用支持向量机 (Support 然环境中获取,往往包含大量噪声,为了增强对含
[4]
vector machine, SVM) 、随机森林 (Random for- 噪鸟鸣声特征的学习能力,本文受深度残差收缩网
est, RF) [3] 等分类器进行识别。例如,张赛花 [4] 提 络 (Deep residual shrinkage networks, DRSN) [12] 、
取了一种 Mel 子带参数化特征,使用 SVM 对野外 卷积块注意力模块 (Convolutional block attention
11种鸟鸣声进行分类识别,结果表明该方法对11类 module, CBAM) [13] 、通道注意力(Efficient channel
鸟声查全率、查准率和 F1-score 均高于 89%。目前 attention, ECANet) [14] 的启发,结合扩张卷积 [15]
该类算法正确率的提高多依赖于对特征的优化与 和残差思想 [16] ,设计了基于 DRSN 和扩张卷积的
选择,其主要适应于小样本数据集,在样本充足的 鸟声识别网络,以提高模型在自然场景下鸟声识别
情况下识别效果低于深度学习的方法。(3) 基于深 的分类精度。本文的主要工作如下:
度学习的方法。深度学习网络具有很好的自动学习 (1) 提取鸟鸣声信号的对数 Mel 特征及其一阶
特征的能力,近年来在鸟类物种识别中得到了广泛 和二阶差分系数组成 log-Mel 特征向量作为网络模
的应用并取得了良好的效果。例如,Cakir等 [5] 提出 型的输入。
了基于卷积递归神经网络(Convolutional recurrent (2) 设计了更加高效的深度残差收缩模块。结
neural networks, CRNN) 的方法实现鸣声的高维 合 ECANet 网络的思想对 DRSN 进行改进,即通过
特征及短时帧间的相关性特征提取,对 Freesound 一维卷积替代 DRSN 模型注意力机制中的两层全
数据中的鸟鸣声进行分类实验,正确率达到 88.5%。 链接,降低参数量的同时增强对含噪鸟鸣声的特征
冯郁茜 [6] 提出了基于双模态特征融合的鸟类物种 学习能力。
分类算法,融合卷积网络提取的语图特征和长短 (3) 基于扩张卷积、残差连接和结合空间注意
时记忆结构提取的鸣声时序序列特征,自适应完 力机制构建局部特征提取模块,将提取到的局部特
成鸟鸣声的物种识别。Naranchimeg等 [7] 利用卷积 征输入 BiLSTM,考虑时间依赖性关系进一步提取
神经网络 (Convolutional neural networks,CNN)提 全局特征。
取语图特征并且提出跨模态结合特征,提高了分类 (4) 在北京百鸟数据 birdsdata 鸟声库上进行