Page 123 - 应用声学2019年第2期
P. 123
第 38 卷 第 2 期 张少康等: 水下声目标的梅尔倒谱系数智能分类方法 269
(2)求能量谱 通常 MFCC参数只表述信号的静态特征,而差
通过快速傅里叶变换得到帧信号频谱,进而得 分梅尔频率倒谱系数则表征信号的动态特征。一阶
到信号能量谱,其公式可表述为 差分及二阶差分梅尔倒谱系数计算过程分别如下
所示:
2
2
p (f) = X (f) = |FFT (x (n))| , (1)
k
其中,x(n)为输入帧信号,X(f)为输入帧信号频谱。 1 ∑ (5)
D(n) = v i · C(n + i),
u k
(3)滤波 u ∑ i=−k
t i 2
将求得的能量谱通过梅尔滤波器组,其公式可
i=−k
表述为 k
1 ∑
′
N−1 D (n) = v i · D(n + i), (6)
∑ u k
E(m) = (p(f) · H m (f)), (2) u ∑ i=−k
t i 2
k=0
i=−k
其中,N 为各帧信号总点数,H m (f) 梅尔滤波器组
系数。 其中,C(n) 为第 n 帧 MFCC 系数,D(n) 为第 n 帧一
′
(4)对数运算 阶差分梅尔频率倒谱系数,D (n) 为第 n 帧二阶差
将滤波后的能量谱作对数运算,其公式可 分梅尔频率倒谱系数。上述三者共同构成帧特征向
表述为 量,即
N−1
′
∑ T n = {C (n) , D (n) , D (n)} . (7)
E (m) = lg (p(f) · H m (f)). (3)
′
k=0 1.2 长短时记忆(LSTM)模型
(5)求倒谱 长短时记忆 (LSTM) 网络 [12] 是循环神经网
将上述对数能量谱求离散余弦变换,即可得到
络 (RNN) 的改进形式,其基本单元被称为记忆
MFCC参数,其公式表述如下:
块,由一个中心节点和3个门控单元组成。中心节点
M [ ]
∑ π (k − 0.5) n 通常被称为记忆细胞,用以存储当前网络状态,3 个
C (n) = E (m) cos , (4)
′
M
k=1 门控单元分别被称作输入门、输出门和遗忘门,用以
其中,n = 1, 2, · · · , p,p为MFCC阶数,M 为滤波器 控制记忆块内的信息流动。在前向传播过程中,输
个数。 入门用以控制输入到记忆细胞的信息流,输出门用
ᣥѣ
॰ဗ ॰ဗ ڏΓ
y
LSTMڱ o σ ᭤ి᧘ӑᤌଌ
ి᧘ӑᤌଌ
ᣥѣ᫃
ᣥК ᫎ൦णᤍᤌଌ
h
ᝮॺጺᑊ
ᣥК
གሥᤂካ
f
σ Cell c ර֗ᤂካ
॰ဗ
᥌᫃ ᫃ӭЋ༏ำѦ
॰ဗ σ
i (sigmoid)
σ
z ᣥК᫃ g ᣥК༏ำѦ
ᣥК (tanh)
g
ᣥѣ༏ำѦ
h
(tanh)
ᣥК ॰ဗ
图 2 LSTM 基本结构单元
Fig. 2 Basic structural unit of LSTM