Page 143 - 《应用声学)》2023年第5期
P. 143
第 42 卷 第 5 期 赵乾坤等: 基于时延神经网络模型的舰船辐射噪声目标识别 1035
其中,a为预加重系数,取值一般在0.9∼1之间。
1 方法介绍
分帧:舰船辐射噪声信号具有短时平稳性,为
1.1 Fbank初级特征提取 了能在短时“小段” 上进行傅里叶变换,将信号按照
给定长度切割成一个个小段,称之为分帧。为了避
人耳在不同频率下的感知是多样化和非线性
免分帧后的相邻帧变化过大,一般会保留一些两帧
的,基于人耳听觉特征的MFCC和Fbank被广泛应
间的重叠区域。
用,它们都使用梅尔滤波器组,不同之处在于Fbank
加窗:是在信号分帧后对每一帧乘上一个不断
特征没有进行离散余弦变换,离散余弦变换去除了
移动的有限长窗函数的过程。窗外的值设定为0,其
各维信号之间的相关性,这也使得没有进行此步骤
目的是消除各个帧两端可能会造成的信号不连续
的Fbank 特征更具有声音的本质信息,且比 MFCC
性,避免出现吉布斯效应。本文使用汉明窗:
计算量更小 [13] 。Fbank 特征不仅可以改善声信号
的线性感知能力,能更好地表征声频的在低频部分 w(n, a) =
的频域特征,提高声纹识别的性能,而且在声纹识 ( )
(1 − a) − a cos 2πn , 06n6N − 1,
别实验中发现 Fbank 特征比 MFCC 特征表现更好。 N − 1 (2)
由于水声目标识别与声纹识别的任务相似性,所以 0, 其他,
本文采用 Fbank特征输入后续网络,如图1所示,它
其中,N 为窗口长度。
的一般步骤是:预加重、分帧、加窗、STFT、梅尔滤
快速傅里叶变换 (FFT):为了将信号从时域转
波等。
换到频域,得到频谱上的能量分布,便于观察不同的
ឦܦ
信号特性。在乘上汉明窗后,每帧要经过 FFT 以得
ᮕҫ᧘ Ѭࣝ ҫቔ
到各帧的频谱。假设采样点是N,则计算如下:
N−1
∑ −j2 π kn
࠷ฉ x[k] = x[n]e N ,
ԩࠫ FFT
٨ጸ
n=0
0 6 k 6 N − 1. (3)
Fbank
梅尔滤波器组:将功率谱通过一组梅尔刻度的
图 1 Fbank 特征提取流程
三角滤波器来提取频带,滤波器组中的每个滤波器
Fig. 1 Fbank feature extraction process
都是三角形的,中心频率为 f(m),中心频率处的响
预加重:主要是对高频部分进行补偿,将舰船
应为 1,并向 0 线性减小,直到达到两个相邻滤波器
辐射噪声信号输入传递函数的高通滤波器进行处
的中心频率,其中响应为 0,各 f(m) 之间的间隔随
理,能够提升高频的能量,帮助提升识别的效果。对
着 m 值的增大而增宽。经过 FFT 的信号分别与每
于 n 时刻信号的采样值 x [n],经过预加重处理后得
个滤波器进行频率相乘累加,得到的值即为该帧数
到的输出:
据在该滤波器对应频段的能量值。单独滤波器的表
y [n] = x [n] − a · x [n − 1], (1) 达式为
0, k < f(m − 1),
2(k − f(m − 1))
, f(m − 1) < k < f(m),
(f(m + 1) − f(m − 1))(f(m) − f(m − 1))
H m (k) = (4)
2(f(m + 1) − k)
, f(m) < k < f(m + 1),
(f(m + 1) − f(m − 1))(f(m) − f(m − 1))
0, k > f(m + 1),
∑ M−1
式(4)中, H m (k) = 1。
m=0