Page 168 - 《应用声学》2023年第4期
P. 168

830                                                                                  2023 年 7 月


                 网络中所有卷积层卷积核个数 K 均设为 128,                      为三维 log-Mel 频谱值。实验中将普通卷积加 BiL-
             padding 设为 same 卷积模式,BiLSTM 层的单元大                 STM 模型 (CNN+BiLSTM) 作为基准模型,分别对
             小设置为128。                                          比基于扩张卷积的残差块加 BiLSTM 模型 (dilat-
                 为了避免网络发生过拟合问题,文章采用了 3                         edCNN+BiLSTM)、基于扩张卷积和空间注意力的
             种方法:(1) 每个卷积层后均添加 BN 层,提高网络                       残 差 块 加 BiLSTM 模 型 (DilatedSAM+BiLSTM)
             的泛化能力。(2) 在全连接层之前采用 dropout 技                     和 DRSN 加于扩张卷积和空间注意力的残差块加
             巧,并设为 0.5。(3) 对于每个卷积层采用 L2 正则化                    BiLSTM模型(DSRN+DilatedSAM+BiLSTM)。
             技巧,正则化参数设为0.0001。                                     如表 3 所示,将基线模型 (CNN+BiLSTM) 中
                 为评估模型性能,本文将准确率 (Accuracy)                     普通卷积换成扩张卷积并增加残差技巧,识别正确
             和 F1-score 作为自身模型和其他对比模型的评价                       率提高 0.63%,在此基础上增加空间注意力机制,识
             指标。F1-score 得分由精确率 (Precision) 和召回率               别精度有少幅提升;原始数据均在自然环境中采集,
             (Recall)两项指标加权得到,具体计算公式如下:                        包含大量背景噪声,增加 DRSN 后,识别正确率提
                 查准率(精准率):                                     高了 0.87%。实验结果:(1) 说明残差结构可以在学
                                        TP                     习当前层鸟鸣声特征的同时避免丢失之前的信息,
                         Precision =          .        (10)
                                     TP + FP                   提高信息的复用率,引入了残差技巧和扩张卷积可
                 查全率(召回率):                                     以提高网络的识别效果;(2) 由于数据集本身在自
                                      TP                       然场景中获取包含一定噪声,因此在添加 DRSN 后
                          Recall =          .          (11)
                                   TP + FN
                                                               识别正确率得到较大提高。
                 正确率(准确率):
                                   TP + TN                                    表 3  消融实验结果
                 Accuracy =                       .    (12)
                             TP + FP + TN + FN
                                                                  Table 3 Results of ablation experiments
                 F1-score:
                                                                                                   (单位:%)
                             2Recall × Precision
                        F1 =                   .       (13)                                Accuracy F1-score
                             Recall + Precision
                                                                     CNN+BiLSTM(baseline)    95.14   94.55
             其中,TP 为正确地预测为正例,TN 为正确地预测
                                                                      DilatedCNN+BiLSTM      95.64   95.22
             为反例,FP 为错误地预测为正例,FN 为错误地预                                DilatedSAM+BiLSTM      95.74   95.48
             测为反例。                                                 DSRN+DilatedSAM+BiLSTM    96.65   96.54
                 实验协议采用五折交叉验证的方式,即将数据
                                                               2.3.2 噪声实验
             集分成 5 份,轮流将其中 4 份作为训练数据,1 份作
                                                                   鸟鸣信号往往包含大量环境噪声,为了验证模
             为测试数据进行实验。
                                                               型在噪声环境下的识别效果,本文设置了噪声实验,
             2.3 实验与分析
                                                               通过在原始数据库中添加高斯白噪声进行实验,来
                 本文实验采用北京百鸟数据库,为验证本文算
                                                               判断模型在噪声环境下的有效性。在实验中向数
             法的有效性,实验共分为 3 个部分。首先对比一维
                                                               据库中分别加入不同强度的高斯白噪声,使原始信
             静态 log-Mel特征和 3维log-Mel特征在本文模型上
                                                               号与高斯白噪声的信噪比为 −5 dB、−2 dB、0 dB、
             的识别效果,同时对比近年来相关论文所提算法;其
                                                               2 dB、5 dB和10 dB,并对比了log-Mel+CRNN          [5]  模
             次在不同强度的高斯白噪声背景下进行实验,验证
                                                               型和 3 维log-Mel+DSRN+DilatedSAM+ BiLSTM
             本文算法在噪声环境下的识别效果;最后对本文模
                                                               的识别效果,同时为了验证本文引入的 DSRN 模块
             型进行消融实验,分析各个模块对模型识别结果的
                                                               的有效性,实验也对比了在本文模型基础上去除
             影响。
                                                               DSRN模块的识别效果。
             2.3.1 消融实验                                            表 4 为不同信噪比下各个模型的识别正确率。
                 为了验证深度残差收缩模块、扩张卷积和空间                          从中可以看出:(1) 随着噪声强度的提高,3 种方法
             注意力模块的有效性,进行了消融实验,输入特征均                           识别精度都在降低。(2) 相比文献[5]采用的CRNN
   163   164   165   166   167   168   169   170   171   172   173