Page 169 - 《应用声学》2023年第4期
P. 169
第 42 卷 第 4 期 李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法 831
方式,本文设计的基于扩张卷积和注意机制的残 的信息丢失问题,本文所提的方法相较于其他网络
差连接模块 (DilatedSAM) 可以有效地在噪声环境 获得了更好的识别效果。
下提取关键特征,在不同强度的背景噪声下均优于
表 5 特征对比实验结果
CRNN。(3) 由于DSRN中软阈值操作的存在,模型
Table 5 Results of feature comparison ex-
可以有效将噪声特征值降低或置 0,因此该网络对
periments
于噪声有着良好的抑制作用,增加 DSRN 模块可以
(单位:%)
有效提高模型在噪声环境下的识别效果。
MFCC 3 维 MFCC log-Mel 3 维 log-Mel
CNN [7] 91.46 91.74 92.37 92.56
表 4 噪声实验结果
CRNN [5] 94.29 94.35 94.67 94.86
Table 4 Results of noise experiments
DSRN+
(单位:%) DilatedSAM 96.23 96.36 96.59 96.65
+BiLSTM(our)
−5 dB −2 dB 0 dB 2 dB 5 dB 10 dB
CRNN [5] 78.85 82.24 85.91 87.68 89.67 91.67
表 6 其他模型对比实验结果
DilatedSAM
83.44 86.76 88.48 90.19 91.82 92.71
+BiLSTM Table 6 Results of other model compari-
DSRN+ son experiments
DilatedSAM 85.51 88.34 89.9.3 91.80 93.28 93.87
(单位:%)
+BiLSTM
Accuracy F1-score
2.3.3 特征和其他模型对比实验
log-Mel+CNN [7] 92.52 92.34
为了验证所提方法的有效性,本文进行了不 log-Mel+CRNN [5] 94.86 94.53
同特征的对比实验,具体特征为:一维静态 MFCC 语谱图 +VGG16 93.24 92.87
特征、包含动态信息的三维 MFCC 特征、一维静态 Bi-LSTM-DenseNet [11] 92.48 —
log-Mel 特征、包含动态信息的三维 log-Mel 特征。 3log-Mel+DSRN+
96.65 96.54
同时与其他学者的方法进行对比,log-Mel+CNN [7] DilatedSAM+BiLSTM
和 log-Mel+CRNN [5] 采用一维静态 log-Mel 频谱值
3 结论
作为输入特征,分别通过 CNN 和 CNN+GRU 模型
进行识别;Mel 语谱图 +VGG16 提取鸟声信号的 本文结合一些深度学习方法,提出了一种新的
log-Mel特征并将其转化成尺寸为 256 × 256语谱图 网络结构实现对噪声环境下鸟鸣声的识别,研究了
图片,采用经典VGG16网络进行识别。 如何从 log-Mel 频谱值中有效学习局部信息和全局
表 5 和表 6 为不同特征和算法识别正确率,从 信息。首先结合注意力机制的方法实现对噪声软阈
中可以看出:(1) 上述 4 种特征在不同网络上的识 值的自动确定,提出了一种改进的DRSN;然后为了
别结果差距较小,由 log-Mel 特征经过离散余弦变 进一步提取有效特征,设计了一个基于扩张卷积和
换得到的MFCC特征,在深度学习网络上的识别结 空间注意力机制的残差连接模块以获取更有效的
果稍低于 log-Mel 特征,这可能是离散余弦变换操 局部特征;最后通过BiLSTM,从局部特征中学习前
作造成了部分信息的丢失;结合动态信息的 3 维特 后的依赖关系,获取全局特征。以北京百鸟数据库
征相较于仅包含静态信息的特征在不同模型上的 20 类鸟声为实验对象结果表明:DRSN 中软阈值操
提升并不明显,主要是由于深度学习网络可以有效 作可以有效降低噪声干扰,相较于其他模型具备明
地从静态特征中获取有效信息。(2) 本文所提算法 显优势。因此本文模型在自然场景下具有良好的应
识别效果相较于其他算法有着明显优势,识别正确 用价值,可以有效降低环境中噪声干扰,提高识别正
率和F1-score得分分别可以达到96.65%和96.54%。 确率。在未来的研究中还会进一步探讨DRSN模块
(3) 由于 DSRN 对于噪声信息的印制、残差技巧对 堆叠数量与对于不同强度噪声的抑制效果,从而将
于信息的复用和通过扩张卷积减少池化操作带来 本文模型更好地应用于自然环境下的鸟声识别中。