Page 132 - 应用声学2019年第4期
P. 132
592 2019 年 7 月
1.3 融合自编码与关联分析的异构学习 为了提升识别率,考虑利用相邻帧之间的相关
基于特征融合的出发点是将水声信号描述为 性,令x 1 、x 2 表示相邻两帧频谱图,则二者在隐含层
l
l
一维时域特征模态和二维时频模态,模型的输入是 中产生的特征映射表示为 z (x 1 ) 和 z (x 2 ),使用 L 1
θ
θ
时域帧和频谱帧。采用稀疏表示的深度自编码多模 规范描述二者的相邻关系:
态学习方法处理水声信号。深度自编码网络 (Deep
l
l
||z (x 1 ) − z (x 2 )|| 1 , 若 x 1 和 x 2 连续, (9)
auto-encoder, DAE)是一种无监督逐层贪心训练算 θ θ
l
l
法,其能够从无先验信息的数据中提取数据的高维 max(0, δ − ||z (x 1 ) − z (x 2 )|| 1 ),
θ
θ
特征,主要结构为编码器、隐含层和解码器。考虑到 若 x 1 和 x 2 不连续, (10)
水声信号在不同特征模态上的稀疏性,将稀疏理论
其中,δ 表示边缘尺寸,是基于先验选取的超参数。
用于深度自编码算法,即在编码器的隐含层添加约
将x 1 、x 2 输入CNN,使二者网络结构共享参数θ,得
束用于提取高维数据变量的稀疏因子,且保留了输
l
l
入的非零特征,使算法的鲁棒性更强,有利于增强数 到特征映射z (x 1 )和z (x 2 )后,通过式(9)和式(10)
θ
θ
据的线性可分性。 计算出关于 θ 的相关梯度 L coh (θ, x 1 , x 2 ),基于 BP
融合自编码与关联分析的异构学习模型分为 算法对 θ 进行更新,这样便充分利用了相邻频谱帧
输入层、共享表示层和输出层。输入层中,输入为 之间的相关性。
一维时域模态和二维频谱模态。其中时域模态利用
LSTM 进行特征训练,二维频谱模态采用 CNN 进 3 利用时间相关的多模态深度学习算法
行特征训练。共享表示层中,基于特征融合的思想,
使用典型相关分析 (Canonical correlation analysis, 基于时间/频谱相关性的多模态深度学习流程
CCA) 将 LSTM 提取的一维时域特征与 CNN 提取 如图3所示。
的二维频谱特征进行融合关联,形成融合特征矩阵。
所谓典型相关分析是指将较多变量转换为较少典 ᒭᎄᆊѬዝគѿ
型变量,通过典型相关系数综合描述多元随机变量
ԠС̚᛫ᇨ
之间关系的统计分析方法。在输出层中,给出水声
信号的分类识别结果。
CCAጇᄱТ
2 水声信号特征模态时间相关特性参数优化
softmaxᣥѣ
在水声信号分析过程中,连续的时间帧或频谱
LSTMവی CNNവی
帧中相邻帧大概率包含有相同目标的特征,也就是
说相邻的信号帧具有相关性,有效挖掘和利用这种
ʷ፥۫ᣥК ̄፥ܦ៨ᣥК
相关性便能够显著提高水下目标的分类识别能力,
事实上利用时间相关性来提升目标识别准确率的 图 3 多模态网络结构示意图
方法已得到研究者的重视。 Fig. 3 The structure of heterogeneous multi-
对水声信号而言,将二维频谱特征模态作为输 modal network
入,利用 CNN 算法进行特征提取和分类识别,可以
利用相邻帧之间的相关性优化训练参数。若不考虑 如图 3 所示,将水声信号的一维时域特征模态
相邻帧的相关性,CNN从水声信号频谱帧图中随机 采用 LSTM 模型处理,将二维频谱特征模态采用
抽取部分作为训练样本,记为⟨(x n , y n )⟩ n=1,··· ,N ,其 CNN 模型处理,各自输出的特征映射进行典型相
中 x n 表示输入的频谱图像帧,y n 为先验标签信息, 关分析,得到参数共享表示,形成特征融合矩阵,
为优化网络参数,建立似然函数 L(θ),待优化参数 最后利用深度稀疏自编码网络进行目标的分类识
为θ。通常利用BP 算法对参数进行优化。 别。利用时间相关性的多模态学习模型本质上是对
N LSTM 和 CNN 的联合概率模型进行优化。具体算
∑
L(θ) = − lg P θ (y n |x n ). (8)
法如下:
n=1