Page 169 - 《应用声学》2023年第4期
P. 169

第 42 卷 第 4 期           李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法                                       831


             方式,本文设计的基于扩张卷积和注意机制的残                             的信息丢失问题,本文所提的方法相较于其他网络
             差连接模块 (DilatedSAM) 可以有效地在噪声环境                     获得了更好的识别效果。
             下提取关键特征,在不同强度的背景噪声下均优于
                                                                            表 5  特征对比实验结果
             CRNN。(3) 由于DSRN中软阈值操作的存在,模型
                                                                  Table 5 Results of feature comparison ex-
             可以有效将噪声特征值降低或置 0,因此该网络对
                                                                  periments
             于噪声有着良好的抑制作用,增加 DSRN 模块可以
                                                                                                      (单位:%)
             有效提高模型在噪声环境下的识别效果。
                                                                             MFCC 3 维 MFCC log-Mel 3 维 log-Mel
                                                                   CNN [7]   91.46    91.74   92.37    92.56
                           表 4   噪声实验结果
                                                                  CRNN [5]   94.29    94.35   94.67    94.86
                  Table 4 Results of noise experiments
                                                                  DSRN+
                                                    (单位:%)       DilatedSAM  96.23    96.36   96.59    96.65
                                                                +BiLSTM(our)
                        −5 dB −2 dB  0 dB  2 dB  5 dB  10 dB
               CRNN [5]  78.85  82.24  85.91  87.68 89.67  91.67
                                                                          表 6  其他模型对比实验结果
             DilatedSAM
                         83.44  86.76  88.48  90.19 91.82  92.71
              +BiLSTM                                             Table 6 Results of other model compari-
               DSRN+                                              son experiments
             DilatedSAM  85.51  88.34  89.9.3 91.80 93.28  93.87
                                                                                                   (单位:%)
              +BiLSTM
                                                                                        Accuracy   F1-score
             2.3.3 特征和其他模型对比实验
                                                                      log-Mel+CNN [7]     92.52     92.34
                 为了验证所提方法的有效性,本文进行了不                                 log-Mel+CRNN [5]     94.86     94.53
             同特征的对比实验,具体特征为:一维静态 MFCC                                 语谱图 +VGG16          93.24     92.87
             特征、包含动态信息的三维 MFCC 特征、一维静态                             Bi-LSTM-DenseNet [11]  92.48      —
             log-Mel 特征、包含动态信息的三维 log-Mel 特征。                        3log-Mel+DSRN+
                                                                                          96.65     96.54
             同时与其他学者的方法进行对比,log-Mel+CNN                  [7]       DilatedSAM+BiLSTM
             和 log-Mel+CRNN   [5]  采用一维静态 log-Mel 频谱值
                                                               3 结论
             作为输入特征,分别通过 CNN 和 CNN+GRU 模型
             进行识别;Mel 语谱图 +VGG16 提取鸟声信号的                           本文结合一些深度学习方法,提出了一种新的
             log-Mel特征并将其转化成尺寸为 256 × 256语谱图                   网络结构实现对噪声环境下鸟鸣声的识别,研究了
             图片,采用经典VGG16网络进行识别。                               如何从 log-Mel 频谱值中有效学习局部信息和全局
                 表 5 和表 6 为不同特征和算法识别正确率,从                      信息。首先结合注意力机制的方法实现对噪声软阈
             中可以看出:(1) 上述 4 种特征在不同网络上的识                        值的自动确定,提出了一种改进的DRSN;然后为了
             别结果差距较小,由 log-Mel 特征经过离散余弦变                       进一步提取有效特征,设计了一个基于扩张卷积和
             换得到的MFCC特征,在深度学习网络上的识别结                           空间注意力机制的残差连接模块以获取更有效的
             果稍低于 log-Mel 特征,这可能是离散余弦变换操                       局部特征;最后通过BiLSTM,从局部特征中学习前
             作造成了部分信息的丢失;结合动态信息的 3 维特                          后的依赖关系,获取全局特征。以北京百鸟数据库
             征相较于仅包含静态信息的特征在不同模型上的                             20 类鸟声为实验对象结果表明:DRSN 中软阈值操
             提升并不明显,主要是由于深度学习网络可以有效                            作可以有效降低噪声干扰,相较于其他模型具备明
             地从静态特征中获取有效信息。(2) 本文所提算法                          显优势。因此本文模型在自然场景下具有良好的应
             识别效果相较于其他算法有着明显优势,识别正确                            用价值,可以有效降低环境中噪声干扰,提高识别正
             率和F1-score得分分别可以达到96.65%和96.54%。                  确率。在未来的研究中还会进一步探讨DRSN模块
             (3) 由于 DSRN 对于噪声信息的印制、残差技巧对                       堆叠数量与对于不同强度噪声的抑制效果,从而将
             于信息的复用和通过扩张卷积减少池化操作带来                             本文模型更好地应用于自然环境下的鸟声识别中。
   164   165   166   167   168   169   170   171   172   173   174