Page 166 - 《应用声学》2023年第4期
P. 166

828                                                                                  2023 年 7 月


                                                    dd
                                                 d
             其中,N = 2,计算得到信号的动态信息z 、z ,与静                      其中,z 为一维卷积的输出,β C 为注意力参数。
                                                    i
                                                i
             态特征 y i 组成 3 维 log-Mel 特征向量 X ∈ R       t×f×k ,       最后注意力参数 β C 乘以向量 α,得到最终阈
             其中,t 表示时间帧个数,f 表示 Mel 滤波器的个数,                     值τ c ,从而确保阈值为正同时不会太大。
             k 表示特征的通道数,这里t = 200、f = 40、f = 3。                    综上所述,软阈值可以表示为
             1.2 DRSN                                                   τ C = β C ⊙ Average |X M,N,C | ,  (6)
                 在实际环境中采集到的鸟鸣声数据,往往存在
                                                               其中,τ C 为特征矩阵对应通道的阈值;M、N、C 分
             大量的背景噪声,影响模型识别的准确率。为解决
                                                               别为特征图 X 的宽度、高度和通道,⊙ 为矩阵的哈
             此问题,本文提出一种改进的DRSN,从而减弱环境
                                                               达玛积。
             噪声对识别结果的影响。文献 [11] 为解决滚动轴承
                                                                   图 3 中 ⃝∼ 为软阈值操作,即将每个通道特征图
             故障诊断中的高噪声问题,将信号去噪中经常使用
                                                               参数在 −τ C 6 X 6 τ C 的特征设为 0,其他特征参
             的软阈值函数引入深度残差神经网络中,并利用通
                                                               数向0收缩。具体计算公式为
             道注意力机制       [19]  自动确定噪声阈值,提出了一种                             
                                                                           X − τ C ,  X > τ C ,
                                                                           
             能够自适应软阈值的 DRSN。本文为了进一步降低                                      
                                                                           
             DRSN 网络的参数量,利用一维卷积替代 DRSN 模                              Y =    0,        −τ C 6 X 6 τ C ,   (7)
                                                                           
                                                                           
                                                                           
             型注意力机制中的两层全链接,其具体结构如图 3                                        X + τ C ,  X < −τ C ,
             所示。
                                                               其中,X 为输入特征参数,Y 为输出特征参数,τ C
                                                               为阈值。
                          MfNfC
                                                                   在经典的信号去噪算法中,设置合适的阈值往
                             BN,ReLU,Conv(K/C)
                                                               往需要大量经验,残差收缩单元通过注意力机制实
                          MfNfC
                                                               现了不同通道阈值的自动确定,避免了人工设置的
                             BN,ReLU,Conv(K/C)
                                                               麻烦。为了进一步减少确定阈值所需的计算量、降
                          MfNfC
                                     Absolute,GAP
                                                               低模型复杂度,本文借鉴 ECANet 网络的方法,用
                       X
                                     α     ffC
                                          Conv1D               一维卷积替代残差收缩单元中两层全连接网络,实
                                          (K=f(C))
                                           ffC               现跨通道信息的交互,并通过选择一维卷积核大小
                                     z    Sigmoid
                              τ c                              确定局部跨通道交互的覆盖范围。
                                           ffC
                                                                   对于给定的通道维度 C,一维卷积核大小 K 计
                                     β c
                                                               算公式如下:
                          MfNfC
                                                                                      log (C)  b
                                                                         K = f(C) =     2    +    .     (8)
                     ᣄ᫠ϙܫေ     ᅾ᫼Ћጉᄱҫ     ᅾ᫼Ћጉᄱ˲                                        γ      γ
                                                                   对于参数 γ 和 b 采用 ECA-Net 网络中的设定,
                       图 3  改进的深度残差收缩单元
                                                               将γ 和b分别设置为2和1。
               Fig. 3 Improved depth residual shrinkage unit
                                                               1.3  扩张卷积残差注意力结构
                 对于输入的三维特征图X(M ×N ×C)首先通
                                                                   为了进一步有效提取鸟鸣声特征,减少池化带
             过取绝对值和全局平均池化操作将特征信息进行
                                                               来的信息丢失,同时希望网络能够聚焦于关键帧信
             压缩得到维度为1 × 1 × C 的向量α,计算公式如下:
                                                               息,本文结合扩张卷积和CBAM网络中的空间注意
                     α = |GolbalAverage(X M,N,C )| .    (4)    力机制及残差的思想,提出了扩张卷积残差注意力

                 其次通过一维卷积得到每个通道的注意力参                           结构。传统的 CNN主要由卷积层和池化层组成,其
                                                               中,卷积层用来提取局部特征;池化层用来对特征
             数,同时在两层全连接网络后应用 sigmoid 函数,使
                                                               图进行下采样减小特征图尺寸,间接提高下层卷积
             注意力参数缩放到(0,1),其计算公式如下:
                                                               感知的范围。然而池化层在减小特征图尺寸的过程
                                     1
                             β C =        ,             (5)    中,可能会造成一些信息的丢失,对于此问题,在本
                                  1 + e −z
   161   162   163   164   165   166   167   168   169   170   171