Page 35 - 《应用声学》2021年第4期
P. 35
第 40 卷 第 4 期 刘峰等: 时频谱图和数据增强的水声信号深度学习目标识别方法 519
Kamal 等 [7] 首先将深度置信网络模型应用于
0 引言
水声信号被动目标识别任务中,在 40 个类别的目
随着海洋的战略地位日益突显,各国都在积极 标共 1000 个测试样本的测试集上取得了 90.23% 的
开发利用海洋资源和空间。声波是目前在海洋中唯 分类正确率,验证了深度学习模型的有效性。王强
一能够进行远距离传播的能量形式,水声目标识别 等 [8] 利用卷积神经网络(Convolutional neural net-
对于海洋开发、国防安全有着重大意义,现已成为 work, CNN) 对 3 类水下目标噪声数据进行分类识
水声领域的研究热点之一。水下目标自动识别主要 别,并与支持向量机方法进行对比。随着深度学
包括特征提取与构建分类器两大部分。当前主流的 习的发展,目标识别的网络构架逐渐成熟,基于
特征提取方法包括时域波形结构分析、频域谱估计 ResNet [9] 和 DenseNet [10] 等方法的网络模型性能
以及时频域分析3个方面。时间域的分布可由峰-峰 显著优于早期的基于 VGG [11] 、AlexNet [12] 等架构,
值、过零点分布、波列面积和波长差分布等特征进行 这主要是因为 ResNet 很好地解决了训练过程中的
描述 [1] 。频域谱估计可提取信号的频率、功率、包络 梯度消失问题。然而,在水声目标识别任务中,可
等特征,以及利用高阶谱分析非高斯信号的特征 [2] 。 用数据规模通常较小,训练这样的深层架构会导
这类方法原理简单、易于实现,仅通过采集到的原始 致训练样本的过度拟合,目前最先进的分类方法仍
水声信号即可获得,但是提取的特征需要一定的先 然主要由 VGG架构产生。McDonnell等 [13] 采用了
验知识进行信号预处理,在时变的海洋环境下泛化 取自计算机视觉领域的 VGG 架构,以声谱图作为
性较弱。时频分析方法提供了时间域与频率域的联 网络输入,在声场景分类方面取得了良好的效果。
合分布信息,可以清楚地描述信号频率随时间变化 Koutini 等 [14] 通过调整不同网络层中 CNN 的感受
的关系,是目前应用效果最好、应用最广的特征提取 野增强模型的泛化能力,实现对不同场景中的声目
方法,常用的方法包括短时傅里叶变换 (Short time 标信号进行分类,通过对比多种网络模型的性能,基
[3]
Fourier transform, STFT) 、梅尔频率倒谱系数 于VGG网络的改进结构取得了最好的分类效果。
(Mel-Frequency cepstral coefficients, MFCC) [4−5] 、 本文以Mel功率谱(Mel spectrum)作为水声信
希尔伯特-黄变换(Hilbert-Huang transform, HHT) 号的特征提取方法,提出了一套适用于小样本水声
等。在特征提取之后再训练隐马尔可夫模型 (Hid- 信号的目标识别方法,利用多种数据增广技术并结
den Markov model, HMM)、支持向量机、K 近邻、 合深度学习网络进行仿真验证。结果表明, 在数据
神经网络等分类器以实现水下目标的识别。 样本匮乏和样本分布不平衡情况下的水声目标识
近年来,随着计算机硬件技术、信号处理技术的 别方面,本文方法具有明显优势。
进一步发展,以机器学习 (Machine learning, ML)、
深度学习 (Deep learning, DL)、大数据 (Big date) 1 本文方法
等为代表的人工智能 (Artificial intelligence, AI) 技
本文方法如图 1 所示,处理流程主要分为 3 个
术,已经在语声识别、图像理解、机器翻译等多个方
步骤:(1) 将原始信号提取Mel功率谱作为特征;(2)
面取得了长足的进展 [6] ,这为水声目标识别提供了
采用数据增强方法,分别从时域信号和时频谱图两
新的解决思路。借助现代计算机技术、信号处理技
个方面进行扩展;(3) 利用改进的 VGG网络对时扩
术、人工智能技术等,开展基于深度学习和大数据
展后的频谱图进行特征学习和训练,实现目标分类。
分析的水声信号智能化目标识别技术研究,可有效
提高自主识别系统的泛化能力和环境适应性。水声 1.1 Mel功率谱特征提取
信号在传播过程中受环境影响较大,存在着数据获 在声频信号处理中,构建特征向量和设计分类
取困难、样本数据少、噪声干扰强等特点,在实际的 器通常被视为两个独立的问题。MFCC特征受到人
应用场景中,很难针对每一种水下目标收集到足量 类听觉系统和语声感知生理学的启发,被用作声频
的数据,因此当收集到的数据量不足以支撑深度神 分析任务的主要声学特征之一,由于其滤除的信息
经网络的训练需求时,如何利用少量数据实现目标 较多,Mel 频谱作为一种特征提取方式在使用神经
识别是当前研究所面临的难题。 网络作为分类器时被广泛使用。