Page 165 - 《应用声学》2023年第4期
P. 165

第 42 卷 第 4 期           李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法                                       827


             实验,分析本文不同网络的作用并与其他基于深度                            相关文献 [17–18] 将静态特征和动态信息相结合取
             学习网络的鸟声识别算法进行对比,最后研究本文                            得了较好的识别效果,因此本文提取鸟鸣声信号的
             方法在不同信噪比数据下的识别效果。                                 log-Mel特征并计算其一阶差分和二阶差分系数,将
                                                               静态和动态信息相结合组成 3 维 log-Mel 特征向量。
             1 基于Mel频谱值和深度学习网络的鸟声                              处理过程如图2所示。
                识别算法

                                                                                           ᮕҫ᧘njѬࣝnjҫቔ
                 本文所提出的鸟声识别算法总体框架如图 1所
             示。首先,对于输入的鸟鸣声信号进行预加重、分帧、                                                         STFT
             加窗,通过 STFT 和 Mel 滤波操作得到 MFCC 并计                                                   ԩവࣱவ
             算得到其一阶差分、二阶差分系数组成 3 维 log-Mel
                                                                                           Mel banks໚ฉ
             特征向量;其次,将特征向量输入一个卷积单元进行
             特征提取,通过池化层缩小特征图大小,并输入深度                                 ᣥѣྲढ़Ք᧚                   ԩࠫ஝
                                                                (static, delta, delta-delta)
             残差收缩模块减弱噪声干扰;然后,通过残差连接                                                      үগྲढ़(delta,delta-delta)
             和 3 个扩张卷积单元结合空间注意力机制 (Spatial
                                                                           图 2  log-Mel 特征提取过程
             attention module, SAM)组成扩张卷积注意力模块
                                                                     Fig. 2 log-Mel feature extraction process
             (DilatedSAM)进一步提取高等级空间局部特征;最
             后,输入 BiLSTM 层来捕获时间序列特征,再经过                            (1) 将鸟鸣声通过高通滤波器进行预加重处理,
             全连接、softmax层实现鸟鸣声的分类识别。                           高通滤波器表示为

                                                   ௑ᫎ
                                                                              H(z) = 1 − µz −1 ,          (1)
                  1. ᮕܫေ
                                                               其中,µ的取值范围为0.9∼1,本文取0.94;
                                                                   (2) 对预加重后的鸟鸣声信号进行分帧、汉明

                         ᮠ                     log-MelὊ

                         ဋ                                     窗加窗,其中帧长为25 ms、帧移为10 ms;
                                               ǁὊǁǁ
                                                                   (3) 对每一帧进行离散傅里叶变换 (Discrete
                              CNN  BN   RELU
                                 MaxPooling                    Fourier transform, DFT) 后得到各帧的频谱,并对
                 2. ງए൵ࣀ
                   ஆ᎖വڱ                                        频谱取模平方得到对应的功率谱,将时域信号转换
                   (DSRN)          DSRN
                                                               为频域上的能量分布;
                                                                   (4) 将功率谱输入到 Mel 滤波器组中得到能量
                            Dilated  BN  RELU
                            Dilated  BN  RELU                  值,对于第 i个滤波器 (0 < i 6 40),能量为 p i ,对p i
                  3. ੱसԄሥ   Dilated  BN  RELU   Dilated        进行对数变换后计算出倒谱Mel频率y i = log(p i );
                     ฌਓҧവڱ                       BN
                                   SAM
                 (DilatedSAM)
                                                                   (5) 为了更好地体现时域连续性,可在静态特
                                                               征增加前后帧动态信息,可由y i 计算一阶差分z 和
                                                                                                          d
                                  RELU                                                                   i
                                                                         dd
                                                               二阶差分z :
                                                                         i
                              ԥՔ᫂ᆁ௑ᝮॺᎪፏ
                  4. ॰ဗᇸፃ                                                      ∑
                                                                                N
                        Ꭺፏ
                              Лᤌଌ         softmax      ಖኤ                          n(y i+n − y i−n )
                                                                           d
                                                                          z =  n=1              ,         (2)
                                                                           i
                                                                                      N
                        图 1  鸟声识别网络总体结构                                               ∑
                                                                                    2    n 2
               Fig. 1 General structure of the bird sound recog-
                                                                                      n=1
               nition network
                                                                                 N
                                                                                ∑      d     d
                                                                                    n(z i+n  − z i−n )
             1.1 对数Mel特征(log-Mel)
                                                                          z dd  =  n=1           ,        (3)
                                                                           i
                                                                                       N
                 静态特征仅描述了帧级声频的能谱包络,而声                                                 ∑
                                                                                     2    n 2
             频具有一定的动态信息。在语声情感识别领域的
                                                                                      n=1
   160   161   162   163   164   165   166   167   168   169   170