Page 165 - 《应用声学》2023年第4期
P. 165
第 42 卷 第 4 期 李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法 827
实验,分析本文不同网络的作用并与其他基于深度 相关文献 [17–18] 将静态特征和动态信息相结合取
学习网络的鸟声识别算法进行对比,最后研究本文 得了较好的识别效果,因此本文提取鸟鸣声信号的
方法在不同信噪比数据下的识别效果。 log-Mel特征并计算其一阶差分和二阶差分系数,将
静态和动态信息相结合组成 3 维 log-Mel 特征向量。
1 基于Mel频谱值和深度学习网络的鸟声 处理过程如图2所示。
识别算法
ᮕҫ᧘njѬࣝnjҫቔ
本文所提出的鸟声识别算法总体框架如图 1所
示。首先,对于输入的鸟鸣声信号进行预加重、分帧、 STFT
加窗,通过 STFT 和 Mel 滤波操作得到 MFCC 并计 ԩവࣱவ
算得到其一阶差分、二阶差分系数组成 3 维 log-Mel
Mel banksฉ
特征向量;其次,将特征向量输入一个卷积单元进行
特征提取,通过池化层缩小特征图大小,并输入深度 ᣥѣྲढ़Ք᧚ ԩࠫ
(static, delta, delta-delta)
残差收缩模块减弱噪声干扰;然后,通过残差连接 үগྲढ़(delta,delta-delta)
和 3 个扩张卷积单元结合空间注意力机制 (Spatial
图 2 log-Mel 特征提取过程
attention module, SAM)组成扩张卷积注意力模块
Fig. 2 log-Mel feature extraction process
(DilatedSAM)进一步提取高等级空间局部特征;最
后,输入 BiLSTM 层来捕获时间序列特征,再经过 (1) 将鸟鸣声通过高通滤波器进行预加重处理,
全连接、softmax层实现鸟鸣声的分类识别。 高通滤波器表示为
ᫎ
H(z) = 1 − µz −1 , (1)
1. ᮕܫေ
其中,µ的取值范围为0.9∼1,本文取0.94;
(2) 对预加重后的鸟鸣声信号进行分帧、汉明
ᮠ log-MelὊ
ဋ 窗加窗,其中帧长为25 ms、帧移为10 ms;
ǁὊǁǁ
(3) 对每一帧进行离散傅里叶变换 (Discrete
CNN BN RELU
MaxPooling Fourier transform, DFT) 后得到各帧的频谱,并对
2. ງए൵ࣀ
ஆ᎖വڱ 频谱取模平方得到对应的功率谱,将时域信号转换
(DSRN) DSRN
为频域上的能量分布;
(4) 将功率谱输入到 Mel 滤波器组中得到能量
Dilated BN RELU
Dilated BN RELU 值,对于第 i个滤波器 (0 < i 6 40),能量为 p i ,对p i
3. ੱसԄሥ Dilated BN RELU Dilated 进行对数变换后计算出倒谱Mel频率y i = log(p i );
ฌਓҧവڱ BN
SAM
(DilatedSAM)
(5) 为了更好地体现时域连续性,可在静态特
征增加前后帧动态信息,可由y i 计算一阶差分z 和
d
RELU i
dd
二阶差分z :
i
ԥՔ᫂ᆁᝮॺᎪፏ
4. ॰ဗᇸፃ ∑
N
Ꭺፏ
Лᤌଌ softmax ಖኤ n(y i+n − y i−n )
d
z = n=1 , (2)
i
N
图 1 鸟声识别网络总体结构 ∑
2 n 2
Fig. 1 General structure of the bird sound recog-
n=1
nition network
N
∑ d d
n(z i+n − z i−n )
1.1 对数Mel特征(log-Mel)
z dd = n=1 , (3)
i
N
静态特征仅描述了帧级声频的能谱包络,而声 ∑
2 n 2
频具有一定的动态信息。在语声情感识别领域的
n=1