Page 132 - 应用声学2019年第4期
P. 132

592                                                                                  2019 年 7 月


             1.3 融合自编码与关联分析的异构学习                                   为了提升识别率,考虑利用相邻帧之间的相关
                 基于特征融合的出发点是将水声信号描述为                           性,令x 1 、x 2 表示相邻两帧频谱图,则二者在隐含层
                                                                                        l
                                                                                                l
             一维时域特征模态和二维时频模态,模型的输入是                            中产生的特征映射表示为 z (x 1 ) 和 z (x 2 ),使用 L 1
                                                                                                θ
                                                                                        θ
             时域帧和频谱帧。采用稀疏表示的深度自编码多模                            规范描述二者的相邻关系:
             态学习方法处理水声信号。深度自编码网络 (Deep
                                                                       l
                                                                               l
                                                                     ||z (x 1 ) − z (x 2 )|| 1 , 若 x 1 和 x 2 连续,  (9)
             auto-encoder, DAE)是一种无监督逐层贪心训练算                           θ       θ
                                                                                 l
                                                                                          l
             法,其能够从无先验信息的数据中提取数据的高维                                  max(0, δ − ||z (x 1 ) − z (x 2 )|| 1 ),
                                                                                 θ
                                                                                          θ
             特征,主要结构为编码器、隐含层和解码器。考虑到                                 若 x 1 和 x 2 不连续,                    (10)
             水声信号在不同特征模态上的稀疏性,将稀疏理论
                                                               其中,δ 表示边缘尺寸,是基于先验选取的超参数。
             用于深度自编码算法,即在编码器的隐含层添加约
                                                               将x 1 、x 2 输入CNN,使二者网络结构共享参数θ,得
             束用于提取高维数据变量的稀疏因子,且保留了输
                                                                           l
                                                                                   l
             入的非零特征,使算法的鲁棒性更强,有利于增强数                           到特征映射z (x 1 )和z (x 2 )后,通过式(9)和式(10)
                                                                           θ
                                                                                   θ
             据的线性可分性。                                          计算出关于 θ 的相关梯度 L coh (θ, x 1 , x 2 ),基于 BP
                 融合自编码与关联分析的异构学习模型分为                           算法对 θ 进行更新,这样便充分利用了相邻频谱帧
             输入层、共享表示层和输出层。输入层中,输入为                            之间的相关性。
             一维时域模态和二维频谱模态。其中时域模态利用
             LSTM 进行特征训练,二维频谱模态采用 CNN 进                        3 利用时间相关的多模态深度学习算法
             行特征训练。共享表示层中,基于特征融合的思想,
             使用典型相关分析 (Canonical correlation analysis,             基于时间/频谱相关性的多模态深度学习流程
             CCA) 将 LSTM 提取的一维时域特征与 CNN 提取                     如图3所示。
             的二维频谱特征进行融合关联,形成融合特征矩阵。
             所谓典型相关分析是指将较多变量转换为较少典                                               ᒭᎄᆊѬዝគѿ
             型变量,通过典型相关系数综合描述多元随机变量
                                                                                  Ԡ஝С̚᛫ᇨ
             之间关系的统计分析方法。在输出层中,给出水声
             信号的分类识别结果。
                                                                                  CCAጇ஝ᄱТ
             2 水声信号特征模态时间相关特性参数优化
                                                                                  softmaxᣥѣ
                 在水声信号分析过程中,连续的时间帧或频谱
                                                                         LSTMവی             CNNവی
             帧中相邻帧大概率包含有相同目标的特征,也就是
             说相邻的信号帧具有相关性,有效挖掘和利用这种
                                                                        ʷ፥௑۫ᣥК             ̄፥ܦ៨ᣥК
             相关性便能够显著提高水下目标的分类识别能力,
             事实上利用时间相关性来提升目标识别准确率的                                         图 3  多模态网络结构示意图
             方法已得到研究者的重视。                                         Fig. 3  The structure of heterogeneous multi-
                 对水声信号而言,将二维频谱特征模态作为输                             modal network
             入,利用 CNN 算法进行特征提取和分类识别,可以
             利用相邻帧之间的相关性优化训练参数。若不考虑                                如图 3 所示,将水声信号的一维时域特征模态
             相邻帧的相关性,CNN从水声信号频谱帧图中随机                           采用 LSTM 模型处理,将二维频谱特征模态采用
             抽取部分作为训练样本,记为⟨(x n , y n )⟩ n=1,··· ,N ,其         CNN 模型处理,各自输出的特征映射进行典型相
             中 x n 表示输入的频谱图像帧,y n 为先验标签信息,                     关分析,得到参数共享表示,形成特征融合矩阵,
             为优化网络参数,建立似然函数 L(θ),待优化参数                         最后利用深度稀疏自编码网络进行目标的分类识
             为θ。通常利用BP 算法对参数进行优化。                              别。利用时间相关性的多模态学习模型本质上是对
                                 N                             LSTM 和 CNN 的联合概率模型进行优化。具体算
                                ∑
                        L(θ) = −    lg P θ (y n |x n ).  (8)
                                                               法如下:
                                n=1
   127   128   129   130   131   132   133   134   135   136   137