Page 122 - 应用声学2019年第2期
P. 122
268 2019 年 3 月
还处于起步阶段。区别于语音识别,水下声信号识
0 引言
别分类具有样本量少、数据获取困难等特点,因此
传统水下声目标识别分类方法需要人工提取 有必要首先对其进行特征提取。从当前研究情况来
具有可推广性、泛化能力强的特征数据,其过程繁 看,采用MFCC特征提取方法对水下声目标信号进
琐复杂,专业性强,需要人的参与,识别分类过程具 行特征提取和识别分类被证明为一种行之有效的
有较强的人机交互特性。近几年,随着浮标潜标、水 手段,但上述方法均采用了传统的 BP 神经网络或
下滑翔机、AUV、UUV 等水下无人潜航器的发展, 支持向量机(Support vector regression, SVM)模型
基于水下无人移动平台的声学探测体系正在不断 作为分类器,相比之下,深度学习方法更具有挖掘深
建立完善。水下声目标识别分类是水声探测的 “瓶 层次数据特征的能力,并更好地解决了模型训练过
颈”,同时也是关键技术之一。未来水下无人声学探 程中的梯度弥散和数据规模问题。另外,当前研究
测预警体系要求潜航器本身具备水下声目标识别 均针对水面舰船等有人平台的水声目标识别分类
分类能力,而传统水下声目标识别分类方法已无法 问题,而非未来水下无人平台。
满足此要求,因此研究智能化水下声目标识别分类 未来水下无人平台进行水下目标识别分类的
方法具有重要意义。 主要任务是能够正确区分水面、水下两类目标。因
一直以来,特征向量提取方法都是水下声目 此,本文以此为研究目的,通过对水上、水下两类水
标识别分类的研究重点,基于听觉特征的水下声 声目标信号进行分析,提取 MFCC 特征向量,作为
目标特征提取方法是研究热点之一,其中,基于 样本有监督预训练长短时记忆网络模型,采用训练
语音识别方法提取梅尔倒谱系数 (Mel frequency 好的分类模型,对实际水声信号进行预测分类,验证
cepstrum coefficient, MFCC)进行水下声目标识别 了模型的有效性。
是常用的方法之一。如文献 [1] 介绍了差分梅尔频
率倒谱系数的概念和相应的特征提取方法,对水 1 MFCC水下声目标特征提取与智能识
下目标进行了基于 MFCC 特征提取方法仿真研究 别分类
和实验分析;文献 [2] 将 MFCC 特征应用于船舶和
鲸类水下声信号的特征提取中,提取了船舶和鲸 1.1 MFCC水下声目标特征提取
类声信号的 MFCC 特征,通过高斯混合模型对提 MFCC 特征提取最早应用于语音识别,是一
取的MFCC特征进行训练和识别分类,讨论MFCC 种有效的特征提取方法,其特征提取过程如图 1 所
维数变化和不同 MFCC 特征组合对识别分类性能 示 [1] 。
的影响;另外文献 [3–5] 也进行了 MFCC 特征提取
ᄬಖ٪ܦηՂ Ѭࣝ රᑟ᧚៨ ฉ
相关方面的研究工作,并取得了一定的研究成果。
近几年来,以深度学习为代表的人工智能算法发
MFCCጇ රψ៨ ԩࠫ
展迅速,深度学习是人工神经网络的发展,于 2006
年被提出 [6] ,目前已发展出自编码器 (Auto en- 图 1 MFCC 特征提取过程
[7]
code, AE) 、深度置信网络 (Deep belief networks, Fig. 1 Feature extraction process of MFCC
[8]
DBN) 、卷积神经网络 (Convolutional neural net-
work, CNN) [9−10] 、循环神经网络(Recurrent neural (1)分帧
networks, RNN) [11−13] 、生成对抗网络 (Generative 分帧是语音信号分析中常用的处理过程,由于
adversarial network, GAN) [14−15] 及其相关变种等 目标噪声信号本质上是非平稳过程,具有时变特性,
多种模型,在各个领域得到广泛的应用,其中,长短 因此通常对信号作分帧处理进行短时分析,提取
时记忆 (Long short-term memory, LSTM) 网络在 帧特征参数,最后由若干帧特征参数共同组成训练
语音识别领域应用效果显著。 样本特征向量。为保持每帧信号之间的连续性,帧
深度学习具备从大量数据中自动学习特征的 与帧之间存在交叠,称为 “帧移”,本文每帧长度取
能力,但其在水下声信号识别分类领域的应用目前 25 ms,帧移取10 ms。