Page 145 - 《应用声学)》2023年第5期
P. 145

第 42 卷 第 5 期           赵乾坤等: 基于时延神经网络模型的舰船辐射噪声目标识别                                         1037

                               ᣥК                              征在 T 维度上求和都等于 1,可以将其视为一种注
                                 1f1
                                                               意力分数,求出基于注意力的均值和标准差,再将它
               X1   X2    X3   X4   X5   X6   X7   X8
                                                               们按照特征维度进行串联,得到ASP最终的输出。
                   3f512
                                                                   ᣥК
                        3f512
                                                                        Tff         ᣥК஝૶X   کϙ   ಖюࣀ
                             3f512
                                                                    ࣱک෉ӑ
                                                                                                 4608fT
                                  3f512                                 Tff
                                                                                               ጳভࡏ
                                        3f512                       Лᤌଌࡏ
                                                                        1f1f128                  128fT
                                             3f512
                                                                  ReLU༏ำࡏ                    tanh༏ำࡏ
                                                  3f512
                                                                        1f1f128
                                                                                                 128fT
               Y1    Y2   Y3   Y4   Y5   Y6   Y7   Y8               Лᤌଌࡏ
                                                                                               ጳভࡏ
                                 1f1                                    1f1f512
                                                                                                 1536fT
                               ᣥѣ                                Sigmoid༏ำࡏ
                                                                                            ༏ำࡏSoftmax
                      图 4  Res2Conv1DReLUBN 结构
                                                                                                 1536fT
                    Fig. 4 Res2Conv1DReLUBN structure
                                                                  ᣥѣ                       کϙ     ಖюࣀ   3072f1
                 在 SE-Res2Block 的最后使用了 SE-Block,它
                                                                 图 5  SE-Block 结构           图 6  ASP 结构
             是现代卷积神经网络所必备的结构,引入通道注意
                                                               Fig. 5 SE-Block structure  Fig. 6 ASP structure
             力机制,对通道间的依赖关系进行了建模,可增强
             有用的通道和抑制无用的通道,能够有效地提升性                            1.3  分类器设计及模型优化
             能,而且计算量并不大。基本思路如图 5 所示,是将                             本文采用基于 AAM-Softmax         [17]  的分类。原始
             一个 T × 1 × 512 的特征图的每个特征通道都映射                     的Softmax没有考虑优化去使得类内具有高度相似
             成一个值 (常用全局平均池化,即:取该特征通道的                          性而类间具有显著差异性。但是舰船辐射噪声通常

             均值,代表该通道),从而特征图会映射为一个向量,                          面临海洋环境干扰、行驶状态改变等引起的类内差
             长度与特征通道数一致。之后,向量通过 FC (与用                         异大类间差异小的问题。而采用 AAM-Softmax(如
             1 维卷积等价) 进行降维,输出长度为特征通道数的                         公式 (6)) 进行分类时,在cos θ 内加入了角度余量损
             1/4(即 128)。然后经过激活函数 ReLU。再通过一                     失 (angular margin)m,增强类内紧凑性和类间差
             个 FC,输出长度与特征通道数一致 (即 512)。接着                      异性,从而提高的判别能力,以及提升了训练的稳
             经过激活函数 Sigmoid,此时输出向量的每一个值,                       定度。
             范围都是 0 ∼ 1 之间。最后用输出向量的每一个值,                               1  ∑            e s(cos(θ y i +m))
                                                                          m
                                                                 L = −      lg                             ,
             对输入特征图的对应通道进行加权相乘。                                        m                       ∑
                                                                                                n
                                                                         i=1   e s(cos(θ y i +m))  +  e s cos θ j
                 ASP 是带有注意力机制的统计池化层,因其
                                                                                             j=1,j̸=y i
             在说话人嵌入方面的优异性能而被安置在深度特                                                                        (6)
             征提取的最后       [16] 。具体结构如图 6 所示,对输入的
                                                                              W j         x i            T
             1536 × T 的特征图,按照 T 维度计算每个特征维度                     且满足:W j =          , x i =    , cos θ j = W x i 。
                                                                                                        j
                                                                             ||W j ∥     ∥x i ∥
             的均值和标准差,将均值和标准差分别在 T 维度重                              这里使用 Adam 来对网络模型进行优化,算法
             复堆叠T 次,再将原输入特征图、均值和标准差在特                          计算梯度平方 g 的指数加权平均以及 g t 的指数加
                                                                             2
                                                                             t
             征维度进行串联,得到的特征图维度为4608×T。然                         权平均:
             后进行一维卷积将 4608×T 特征图降维,经过 tanh
                                                                        M t = β 1 M t−1 + (1 − β 1 ) g t ,  (7)
             激活函数得到维度为128×T 的特征图,再对其进行
                                                                        G t = β 2 G t−1 + (1 − β 2 ) g t ⊙ g t ,  (8)
             一维卷积将其升维到 1536×T,进行 Softmax 激活,
             在 T 维度上对帧权重进行了标准化处理,避免了不                          其中,β 1 和 β 2 分别为两个移动平均的衰减率,通常
             同批次之间的巨大差异,而且,此时特征图每一行特                           取值为β 1 = 0.9,β 2 = 0.99。
   140   141   142   143   144   145   146   147   148   149   150