Page 130 - 应用声学2019年第4期
P. 130
590 2019 年 7 月
基于上述分析,本文提出一种适合水声信号处
0 引言
理的多模态目标识别方法,综合 LSTM 的语音识别
水声技术的快速发展使得观测数据迅速增长, 能力和 CNN 的图像处理能力,建立 LSTM 和 CNN
如何建立基于水声观测数据的水下目标识别方法 的共享关联表示,充分利用水声信号不同维度的融
一直是水声工程领域的研究热点。如今水声探测技 合特征,提高目标分类识别能力。
术朝着多源、多模态的方向发展,迫切需要寻找多
源数据中隐藏的目标本质特性,实现对水下目标的 1 水下目标多模态深度学习识别理论
特征提取与分类识别。水下目标的分类识别本质上
水下目标识别的关键是水声信号的特征提取,
属于模式识别的范畴,机器学习方法是水下目标识
典型的特征提取有时域信号过零点分布、功率谱特
别的主要方法,且目前已经从浅层学习发展为深度
征、线谱特征、听觉域特征、时频谱特征等。由于水
学习 [1] 。
声环境的复杂性导致水声信号复杂多变,依靠单一
传统的浅层学习方法本质上是对数据进行非
特征模态处理往往难以得到较好的效果,将多模态
线性特征变换,如多层感知机模型、支持向量机
特征融合利用能够有效增加目标识别能力:即将水
(Support vector machine, SVM) 模型 [2] 、高斯混合
声信号的一维时域模态与二维时频谱模态分别作
模型 [3] 、条件随机场模型 [4] 等。浅层学习的前提是
为两种特征模态输入,使用不同的深度网络处理结
特征工程,学习模型一般将特征工程提取的特征向
构进行并行处理,再将这种异构处理得到的高层特
量通过非线性数据映射得到分类边界。因此,浅层
学习适合解决特征提取容易、约束具体的分类问题, 征进行关联共享用于目标分类识别。
对于特征工程较难的数据分类效果往往不好,此外, 1.1 CNN深度学习模型
浅层学习的参数无法自适应,因此其自纠错能力欠
CNN 是一种典型的深度学习模型,从 20 世纪
缺 [5] 。
60 年代提出以来,CNN 模型得到了快速发展并成
深度学习理论较好地克服了浅层学习依赖特
为时下最为成功和流行的深度学习模型之一。CNN
征工程和自适应欠缺的缺点,其能够进行参数自
具有稀疏交互、参数共享和等变表示的优点,擅长
适应学习,且可以表征高维复杂函数,提取目标
处理二维图像数据。CNN 通过卷积核完成特征的
的深层特征,因此可以获得更多关于目标的有用
局部提取,然后通过池化降采样完成特征映射,特
信息 [6] 。深度学习最为典型的模型是长短时记忆
征逐层抽象提取与映射使得 CNN 能够得到比浅层
(Long short-term memory, LSTM) 网络 [7] 和卷积
学习更为抽象稳定的特征,因此特征提取与映射是
神经网络 (Convolution neural network, CNN) [8] ,
CNN 最为关键的处理流程。典型的 CNN 网络结构
LSTM模型适合处理时序数据,如语音信号、自然语
如图1所示。
言序列等,而CNN模型则适合处理图像信息 [9] 。
CNN 处理流程中,每个卷积层 C l 对 N l−1 层的
随着水声工程技术的飞速发展,一方面水声信
输入位面 Z l−1 l−1 进行线性滤波,滤波器为卷积
号数据积累日益增加,另一方面又对水声信号处理 1,··· ,N
l
l
核 K × K ,该层卷积层输出位面为 D l−1 × D l−1 ,
方法提出了新的要求,如在水下目标的分类识别方
l
l
th
输出为 Z l l 位面中任选 N 层,N 在 p 位面中
面,采用何种信号处理手段高效地处理积累的水声 1,··· ,N
位置(x, y)处的计算值为
信号数据是需要研究的问题,目前已有将深度学习
l
l
方法应用到水下目标分类识别的尝试 [10−14] 。但其 l l ∑ ∑ ∑ l
K
K
应用是基于水声信号的单一模态进行处理,对于水 Z (x, y) = b + w p,q,s,t
p
p
q s=l t=l
声信号而言,一维时域信号和二维时频谱信号均能
× Z l−1 (i − 1 + s, j − 1 + t), (1)
够为目标识别提供重要信息,将多模态的水声信号 q
l
l
进行融合有利于水下目标的分类识别。事实上,多 式 (1) 中,偏置 b 和卷积核权重 w p,q,s,t 通过反向传
p
模态信息融合处理方法在视频处理领域应用非常 播 (Back propagation, BP) 算法进行优化。本文利
广泛 [15−17] 。 用CNN处理二维时频模态水声数据。