Page 102 - 《应用声学》2021年第5期
P. 102
746 2021 年 9 月
spectrum matrix, which is composed of spectral vector extracted from each single hydrophone signal, is directly
fed into the cascaded network made up of convolutional neural networks (CNN) and long short-term memory
(LSTM) networks. Then, with the one-hot vector from the final dense layer, the fundamental frequency is
estimated. The following conclusions can be drawn from computer simulation and field experiments: The deep
learning-based method works well when no prior knowledge is assumed or signal to noise ratio varies, having
good generalization performance. LSTM network can effectively extract the statistical characteristics from the
DEMON spectrum sequence and improve the accuracy of the F0 estimation. The detection precision depends
on the input signal length, and a better detection result could be obtained when a longer signal is available.
Keywords: Fundamental frequency; Deep learning; Long short-term memory; Convolutional neural networks;
Hydrophone array; Underwater target noises
dictive cepstral coefficient, LPCC) 和 MFCC 串联
0 引言
后输入 DBN 网络。文献 [19] 将梅尔频率特征分别
输入支持向量机 (Support vector machine, SVM)
水中机动目标在航行时会辐射出具有特殊频
和 VGGish 网络中,对生物、潜艇和船只 3 种目标
谱分布的噪声,因此可以通过噪声分析来估计航行
噪声进行分类。文献 [20] 使用堆叠降噪自编码器
器的吨位、桨叶数等物理特征和轴频、航速等运动
(Stacked denoising auto encoder, SDAE)对原始信
状态 [1−2] ,进而实现合作或对抗场景下的态势感知。
号数据进行降维和逐层特征提取,然后使用 SVM
轴频是螺旋桨转速的最直接反映 [3] ,对水下目标探
和 BP 网络进行分类。文献 [21] 开展了基于长短时
测具有重要的意义,本文将重点研究如何从水听器
阵列接收到的噪声中估计轴频信息。 记忆 (Long short-term memory, LSTM) 网络的声
学目标分类,发现时域、频域和 MFCC 三种特征
轴频也称为基频,在数值上等于目标螺旋桨主
具有相当的分类性能。随后,他们对 DEMON 谱和
轴的转动频率 [4] ,常用 DEMON 谱分析法提取调制
谱特征,以获取基频及其谐波在内的低频线谱,进而 MFCC等特征进行融合,提高了 LSTM 网络的分类
检测目标的基频、叶频或桨叶数目。文献 [5–6] 评估 准确率 [22] 。
了不同解调分量得到的DEMON谱的鉴别能力。文 大多数现有水下目标分类算法首先通过波束
献 [7–11] 研究了 DEMON 谱净化与增强,提高了线 形成将水听器阵列信号约减为一维信号,然后提取
谱的信噪比与基频估计的精度。其中,文献 [7] 基于 频域特征输入深度网络进行训练。本文开展基于深
线谱之间的倍频关系,提出基于最大公约数的基频 度学习的基频估计,但是重点考虑如下两个问题:
提取方法,文献[12–13]对此进行了拓展并提出相应 (1) 在特征提取时,绝大多数研究都采用了
的改进方法。这些算法需要人为设置参数进行特征 MFCC特征。MFCC反映能量在不同频率区间的分
提取和基频估计,对信噪比较敏感。实际接收到的 布,本质上是对噪声信号频谱包络的一种描述,关注
目标噪声信号,受到不同海洋波导传输过程的乘性 的是连续谱而非调制谱特征。
作用和加性干扰,其信噪比变化大 [14−15] 。 (2) 在波束形成时,会丢失很多细节信息,且会
深度学习具有较强的泛化能力,近年来逐渐 引入新的阵形估计误差。
被研究人员引入水下目标识别领域。文献 [16] 通 对于问题(1),由于调制谱是由基频及其谐频决
过提取 DEMON 谱中各谐波之间的结构特征关系 定的,而一般采用 DEMON 谱来提取调制谱,所以
建立模板库,根据模板库对深度神经网络 (Deep 本文在估计基频时候选择 DEMON 谱作为网络的
neural networks, DNN) 进行训练,并识别螺旋桨 输入。需要注意的是,在目标航速很低时噪声的调
的叶片数目。文献 [17] 将梅尔频率倒谱系数 (Mel- 制效应很弱,因此调制谱分析更适合分析非低速航
frequency cepstrum coefficient, MFCC) 和频谱包 行下的目标噪声。
络特征输入卷积神经网络 (Convolutional neural 对于问题 (2),一种更加合理的选择是将水听
networks, CNN) 和深度置信网络 (Deep belief net- 器阵列采集的多通道信号直接用于特征提取。然
works, DBN),对船舶目标进行分类。文献[18]提出 而,多通道数据不仅会导致特征数急速增长,而且
一个类似方案,将线性预测倒谱系数 (Linear pre- 还会引入随机噪声的谱特征。本文拟采用 CNN 网