Page 166 - 《应用声学》2023年第4期
P. 166
828 2023 年 7 月
dd
d
其中,N = 2,计算得到信号的动态信息z 、z ,与静 其中,z 为一维卷积的输出,β C 为注意力参数。
i
i
态特征 y i 组成 3 维 log-Mel 特征向量 X ∈ R t×f×k , 最后注意力参数 β C 乘以向量 α,得到最终阈
其中,t 表示时间帧个数,f 表示 Mel 滤波器的个数, 值τ c ,从而确保阈值为正同时不会太大。
k 表示特征的通道数,这里t = 200、f = 40、f = 3。 综上所述,软阈值可以表示为
1.2 DRSN τ C = β C ⊙ Average |X M,N,C | , (6)
在实际环境中采集到的鸟鸣声数据,往往存在
其中,τ C 为特征矩阵对应通道的阈值;M、N、C 分
大量的背景噪声,影响模型识别的准确率。为解决
别为特征图 X 的宽度、高度和通道,⊙ 为矩阵的哈
此问题,本文提出一种改进的DRSN,从而减弱环境
达玛积。
噪声对识别结果的影响。文献 [11] 为解决滚动轴承
图 3 中 ⃝∼ 为软阈值操作,即将每个通道特征图
故障诊断中的高噪声问题,将信号去噪中经常使用
参数在 −τ C 6 X 6 τ C 的特征设为 0,其他特征参
的软阈值函数引入深度残差神经网络中,并利用通
数向0收缩。具体计算公式为
道注意力机制 [19] 自动确定噪声阈值,提出了一种
X − τ C , X > τ C ,
能够自适应软阈值的 DRSN。本文为了进一步降低
DRSN 网络的参数量,利用一维卷积替代 DRSN 模 Y = 0, −τ C 6 X 6 τ C , (7)
型注意力机制中的两层全链接,其具体结构如图 3 X + τ C , X < −τ C ,
所示。
其中,X 为输入特征参数,Y 为输出特征参数,τ C
为阈值。
MfNfC
在经典的信号去噪算法中,设置合适的阈值往
BN,ReLU,Conv(K/C)
往需要大量经验,残差收缩单元通过注意力机制实
MfNfC
现了不同通道阈值的自动确定,避免了人工设置的
BN,ReLU,Conv(K/C)
麻烦。为了进一步减少确定阈值所需的计算量、降
MfNfC
Absolute,GAP
低模型复杂度,本文借鉴 ECANet 网络的方法,用
X
α ffC
Conv1D 一维卷积替代残差收缩单元中两层全连接网络,实
(K=f(C))
ffC 现跨通道信息的交互,并通过选择一维卷积核大小
z Sigmoid
τ c 确定局部跨通道交互的覆盖范围。
ffC
对于给定的通道维度 C,一维卷积核大小 K 计
β c
算公式如下:
MfNfC
log (C) b
K = f(C) = 2 + . (8)
ᣄϙܫေ ᅾЋጉᄱҫ ᅾЋጉᄱ˲ γ γ
对于参数 γ 和 b 采用 ECA-Net 网络中的设定,
图 3 改进的深度残差收缩单元
将γ 和b分别设置为2和1。
Fig. 3 Improved depth residual shrinkage unit
1.3 扩张卷积残差注意力结构
对于输入的三维特征图X(M ×N ×C)首先通
为了进一步有效提取鸟鸣声特征,减少池化带
过取绝对值和全局平均池化操作将特征信息进行
来的信息丢失,同时希望网络能够聚焦于关键帧信
压缩得到维度为1 × 1 × C 的向量α,计算公式如下:
息,本文结合扩张卷积和CBAM网络中的空间注意
α = |GolbalAverage(X M,N,C )| . (4) 力机制及残差的思想,提出了扩张卷积残差注意力
其次通过一维卷积得到每个通道的注意力参 结构。传统的 CNN主要由卷积层和池化层组成,其
中,卷积层用来提取局部特征;池化层用来对特征
数,同时在两层全连接网络后应用 sigmoid 函数,使
图进行下采样减小特征图尺寸,间接提高下层卷积
注意力参数缩放到(0,1),其计算公式如下:
感知的范围。然而池化层在减小特征图尺寸的过程
1
β C = , (5) 中,可能会造成一些信息的丢失,对于此问题,在本
1 + e −z