Page 145 - 《应用声学)》2023年第5期
P. 145
第 42 卷 第 5 期 赵乾坤等: 基于时延神经网络模型的舰船辐射噪声目标识别 1037
ᣥК 征在 T 维度上求和都等于 1,可以将其视为一种注
1f1
意力分数,求出基于注意力的均值和标准差,再将它
X1 X2 X3 X4 X5 X6 X7 X8
们按照特征维度进行串联,得到ASP最终的输出。
3f512
ᣥК
3f512
Tff ᣥКX کϙ ಖюࣀ
3f512
ࣱکӑ
4608fT
3f512 Tff
ጳভࡏ
3f512 Лᤌଌࡏ
1f1f128 128fT
3f512
ReLU༏ำࡏ tanh༏ำࡏ
3f512
1f1f128
128fT
Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Лᤌଌࡏ
ጳভࡏ
1f1 1f1f512
1536fT
ᣥѣ Sigmoid༏ำࡏ
༏ำࡏSoftmax
图 4 Res2Conv1DReLUBN 结构
1536fT
Fig. 4 Res2Conv1DReLUBN structure
ᣥѣ کϙ ಖюࣀ 3072f1
在 SE-Res2Block 的最后使用了 SE-Block,它
图 5 SE-Block 结构 图 6 ASP 结构
是现代卷积神经网络所必备的结构,引入通道注意
Fig. 5 SE-Block structure Fig. 6 ASP structure
力机制,对通道间的依赖关系进行了建模,可增强
有用的通道和抑制无用的通道,能够有效地提升性 1.3 分类器设计及模型优化
能,而且计算量并不大。基本思路如图 5 所示,是将 本文采用基于 AAM-Softmax [17] 的分类。原始
一个 T × 1 × 512 的特征图的每个特征通道都映射 的Softmax没有考虑优化去使得类内具有高度相似
成一个值 (常用全局平均池化,即:取该特征通道的 性而类间具有显著差异性。但是舰船辐射噪声通常
均值,代表该通道),从而特征图会映射为一个向量, 面临海洋环境干扰、行驶状态改变等引起的类内差
长度与特征通道数一致。之后,向量通过 FC (与用 异大类间差异小的问题。而采用 AAM-Softmax(如
1 维卷积等价) 进行降维,输出长度为特征通道数的 公式 (6)) 进行分类时,在cos θ 内加入了角度余量损
1/4(即 128)。然后经过激活函数 ReLU。再通过一 失 (angular margin)m,增强类内紧凑性和类间差
个 FC,输出长度与特征通道数一致 (即 512)。接着 异性,从而提高的判别能力,以及提升了训练的稳
经过激活函数 Sigmoid,此时输出向量的每一个值, 定度。
范围都是 0 ∼ 1 之间。最后用输出向量的每一个值, 1 ∑ e s(cos(θ y i +m))
m
L = − lg ,
对输入特征图的对应通道进行加权相乘。 m ∑
n
i=1 e s(cos(θ y i +m)) + e s cos θ j
ASP 是带有注意力机制的统计池化层,因其
j=1,j̸=y i
在说话人嵌入方面的优异性能而被安置在深度特 (6)
征提取的最后 [16] 。具体结构如图 6 所示,对输入的
W j x i T
1536 × T 的特征图,按照 T 维度计算每个特征维度 且满足:W j = , x i = , cos θ j = W x i 。
j
||W j ∥ ∥x i ∥
的均值和标准差,将均值和标准差分别在 T 维度重 这里使用 Adam 来对网络模型进行优化,算法
复堆叠T 次,再将原输入特征图、均值和标准差在特 计算梯度平方 g 的指数加权平均以及 g t 的指数加
2
t
征维度进行串联,得到的特征图维度为4608×T。然 权平均:
后进行一维卷积将 4608×T 特征图降维,经过 tanh
M t = β 1 M t−1 + (1 − β 1 ) g t , (7)
激活函数得到维度为128×T 的特征图,再对其进行
G t = β 2 G t−1 + (1 − β 2 ) g t ⊙ g t , (8)
一维卷积将其升维到 1536×T,进行 Softmax 激活,
在 T 维度上对帧权重进行了标准化处理,避免了不 其中,β 1 和 β 2 分别为两个移动平均的衰减率,通常
同批次之间的巨大差异,而且,此时特征图每一行特 取值为β 1 = 0.9,β 2 = 0.99。