Page 168 - 《应用声学》2023年第4期
P. 168
830 2023 年 7 月
网络中所有卷积层卷积核个数 K 均设为 128, 为三维 log-Mel 频谱值。实验中将普通卷积加 BiL-
padding 设为 same 卷积模式,BiLSTM 层的单元大 STM 模型 (CNN+BiLSTM) 作为基准模型,分别对
小设置为128。 比基于扩张卷积的残差块加 BiLSTM 模型 (dilat-
为了避免网络发生过拟合问题,文章采用了 3 edCNN+BiLSTM)、基于扩张卷积和空间注意力的
种方法:(1) 每个卷积层后均添加 BN 层,提高网络 残 差 块 加 BiLSTM 模 型 (DilatedSAM+BiLSTM)
的泛化能力。(2) 在全连接层之前采用 dropout 技 和 DRSN 加于扩张卷积和空间注意力的残差块加
巧,并设为 0.5。(3) 对于每个卷积层采用 L2 正则化 BiLSTM模型(DSRN+DilatedSAM+BiLSTM)。
技巧,正则化参数设为0.0001。 如表 3 所示,将基线模型 (CNN+BiLSTM) 中
为评估模型性能,本文将准确率 (Accuracy) 普通卷积换成扩张卷积并增加残差技巧,识别正确
和 F1-score 作为自身模型和其他对比模型的评价 率提高 0.63%,在此基础上增加空间注意力机制,识
指标。F1-score 得分由精确率 (Precision) 和召回率 别精度有少幅提升;原始数据均在自然环境中采集,
(Recall)两项指标加权得到,具体计算公式如下: 包含大量背景噪声,增加 DRSN 后,识别正确率提
查准率(精准率): 高了 0.87%。实验结果:(1) 说明残差结构可以在学
TP 习当前层鸟鸣声特征的同时避免丢失之前的信息,
Precision = . (10)
TP + FP 提高信息的复用率,引入了残差技巧和扩张卷积可
查全率(召回率): 以提高网络的识别效果;(2) 由于数据集本身在自
TP 然场景中获取包含一定噪声,因此在添加 DRSN 后
Recall = . (11)
TP + FN
识别正确率得到较大提高。
正确率(准确率):
TP + TN 表 3 消融实验结果
Accuracy = . (12)
TP + FP + TN + FN
Table 3 Results of ablation experiments
F1-score:
(单位:%)
2Recall × Precision
F1 = . (13) Accuracy F1-score
Recall + Precision
CNN+BiLSTM(baseline) 95.14 94.55
其中,TP 为正确地预测为正例,TN 为正确地预测
DilatedCNN+BiLSTM 95.64 95.22
为反例,FP 为错误地预测为正例,FN 为错误地预 DilatedSAM+BiLSTM 95.74 95.48
测为反例。 DSRN+DilatedSAM+BiLSTM 96.65 96.54
实验协议采用五折交叉验证的方式,即将数据
2.3.2 噪声实验
集分成 5 份,轮流将其中 4 份作为训练数据,1 份作
鸟鸣信号往往包含大量环境噪声,为了验证模
为测试数据进行实验。
型在噪声环境下的识别效果,本文设置了噪声实验,
2.3 实验与分析
通过在原始数据库中添加高斯白噪声进行实验,来
本文实验采用北京百鸟数据库,为验证本文算
判断模型在噪声环境下的有效性。在实验中向数
法的有效性,实验共分为 3 个部分。首先对比一维
据库中分别加入不同强度的高斯白噪声,使原始信
静态 log-Mel特征和 3维log-Mel特征在本文模型上
号与高斯白噪声的信噪比为 −5 dB、−2 dB、0 dB、
的识别效果,同时对比近年来相关论文所提算法;其
2 dB、5 dB和10 dB,并对比了log-Mel+CRNN [5] 模
次在不同强度的高斯白噪声背景下进行实验,验证
型和 3 维log-Mel+DSRN+DilatedSAM+ BiLSTM
本文算法在噪声环境下的识别效果;最后对本文模
的识别效果,同时为了验证本文引入的 DSRN 模块
型进行消融实验,分析各个模块对模型识别结果的
的有效性,实验也对比了在本文模型基础上去除
影响。
DSRN模块的识别效果。
2.3.1 消融实验 表 4 为不同信噪比下各个模型的识别正确率。
为了验证深度残差收缩模块、扩张卷积和空间 从中可以看出:(1) 随着噪声强度的提高,3 种方法
注意力模块的有效性,进行了消融实验,输入特征均 识别精度都在降低。(2) 相比文献[5]采用的CRNN