Page 144 - 《应用声学)》2023年第5期
P. 144

1036                                                                                 2023 年 9 月


                 最后,计算每个滤波器组输出的对数能量为                                      表 1  深层特征提取网络结构
                       (                  )
                        N−1
                         ∑         2                              Table 1 Deep feature extraction network
             s(m) = ln      |X a (k)| H m (k) , 0 6 m 6 M.
                                                                  structure
                         k=0
                                                        (5)
                                                                  层           结构            输入维度    输出维度
                 得到梅尔频谱图如图2所示。                                          Conv1D+ReLU+BN
                                                                   0                         80×T    512×T
                                                                           (k = 5, d = 1)
                               Fbank
               70                                  20              1  SE-Res2Block (k = 3, d = 2)  512×T  512×T
               60                                  10              2  SE-Res2Block (k = 3, d = 3)  512×T  512×T
               50                                  0               3  SE-Res2Block(k = 3, d = 4)  512×T  512×T
               40                                  -10  ᑟ᧚/dB           Conv1D+ReLU+BN
               30                                  -20             4       (k = 1, d = 1)   1536×T  1536×T
               20                                  -30             5        ASP+BN          1536×T  3072×1
               10                                  -40
                                                                   6         FC+BN          3072×1   192×1
                0                                  -50
                 0     1     2     3     4                         7     AAM-Softmax 分类      192×1    S×1
                              ௑ᫎ/s
                                                                   其中,SE-Res2Block 模块作为特征建模模块,
                             图 2  梅尔频谱图
                                                               如图 3 所示,由两个相同的带有 ReLU 激活层和
                           Fig. 2 Mel spectrum
                                                               BN 层的 TDNN 模块、1 个带有 ReLU 激活层和 BN
             1.2 基于TDNN模型的高级特征提取
                                                               层的分层类残差连接的残差块 (Res2Block)、1 个
                 水声信号是一种典型的时序信号,存在着时间
                                                               压缩激励模块 (Squeeze-and-excitation block, SE-
             关联特性。本实验利用改进的 TDNN 沿时间轴采
                                                               Block)和 1 个从输入到输出的直接连接构成。一维
             用一维卷积结构作为特征提取器                [14] ,将水声信号
                                                               Res2Net 模块将输入通道平均分成 8 个部分,如图 4
             有区别地嵌入到一个向量空间中,利用水声信号
                                                               所示,第一个特征图保留,不进行变换,这是对前一
             的短时平稳特性提取帧级特征,然后将声频的帧级
                                                               层特征的复用,同时也降低了参数量和计算量。从
             特征的均值和标准差连接起来作为长时特征,最后
                                                               第二个特征图开始,都经过一个 3 × 512 的一维卷
             通过前馈网络实现目标类别的划分。深度特征提
                                                               积,并且当前特征图的卷积结果,会与后一个特征图
             取网络依次由 1 个 TDNN 模块 (卷积核长度为 5)、3
                                                               进行残差连接 (逐元素相加)。然后,后一个特征图
             个带有压缩激励和分层类残差连接的残差块 (SE-
                                                               再进行 3 × 512的一维卷积。最后,将所有输出通道
             Res2Block)、1 个 TDNN 模块 (卷积核长度为 1) 和 1
                                                               部分合并为 Res2Block 输出。这样使得层内融合了
             个注意力统计池化模块 (Attentive statistics pool-
                                                               不同尺度的特征,可获得更强的表征。整体网络模
             ing, ASP) 组成。其中 TDNN 模块均包含 ReLU 激
                                                               型1∼3层Res2Block的空洞卷积膨胀率d分别为2、
             活层和一个批处理规范化层 (Batch normalization,
                                                               3、4。
             BN)。而且,由于神经网络可以学习分层特征,这
             些更深层次的特征是最复杂的,应该与舰船类别密                                             ᣥК
             切相关,更浅的特征图也有助于提取更鲁棒的舰船                                          Conv1DReLUBN   k/
             声纹嵌入码。因此,采用的网络模型连接所有 SE-
             Res2Block 的输出特征,多层特征聚合 (Multi-layer                            Res2Conv1DReLUBN k/
             feature aggregation, MFA) 之后,用一个全连接层
                                                                             Conv1DReLUBN   k/
             (Fully connected layer, FC) 处理连接的信息,输入
             到ASP后,生成得到帧维度的均值向量和标准差向                                             SE-Block
             量  [15] ,再经过一个 FC 生成 192 维度的特征,然后
             用 AAM-Softmax 方式进行分类识别。具体网络结                                       ᣥѣ
             构如表 1 所示,其中 T 为时间帧数,k 表示卷积核长                                图 3  SE-Res2Block 结构示意图
             度,d表示空洞卷积维度。                                             Fig. 3 SE-Res2Block structure diagram
   139   140   141   142   143   144   145   146   147   148   149