Page 93 - 应用声学2019年第2期
P. 93
第 38 卷 第 2 期 王玮蔚等: 基于变分模态分解的语音情感识别方法 239
∫ ∞
式(3)中,L({u k }, {ω k }, λ)为拉格朗日函数,α 为惩 2
ω |u k (ω)| dω
罚系数,λ(t)为拉格朗日乘子,⟨·⟩表示内积。 n+1 0 (6)
ω
k = ∫ ∞ ,
2
采用乘法算子交替的方法求式 (3) 的鞍点,就 |ˆu k (ω)| dω
得到 IMF 分量,求解过程中 u n+1 的值会不断更新。 0 ( ∑ )
k ˆ n+1 ˆ n ˆ n+1 (ω) . (7)
n
公式 (4) 取得最小值时,u n+1 与u 的误差小于预设 λ (ω) ← λ (ω) + τ f(ω) − ˆ u k
k k k
值,u n+1 为第n + 1次迭代的第k 个IMF分量,其表
k 每个 IMF 分量的频率中心及带宽在模型求解
达式为
过程中,随着迭代次数不断更新,直到满足迭代条
{
2 ∑
[( j ) ]
2
2
件
n+1 n
< e,即可根据相应
n+1
n+1
u = arg min α ∂ t δ(t)+ · u k (t) e −jω k t
ˆ u k − ˆu k 2 / ˆu k 2
k
u k ∈X πt 2 k
的频域特征得到 K 个 IMF 分量。该分解模式可以
2 }
∑
λ(t)
+
f(t) − u i (t) +
, (4) 自适应地对信号频带进行切割,有效避免模态混叠,
2
i 2 且 IMF 分量被固定划分为 K 个,消除了 EMD 算法
式(4)中,X为u k 的集合,w n+1 为第n + 1次迭代的 大量的无效分解分量,使得计算量大幅下降 [10] 。
k
∑
第k 个IMF分量的中心频率, u i (t) n+1 表示将第
1.2 基于VMD-HT的语音情感特征
i̸=k
n + 1 次迭代的除了第k 个IMF 分量之外的分量进 对语音信号进行 VMD 分解得到 IMF 分量后,
行求和。 为了得到能对语音情感分析的特征,利用 IMF 分量
利用 Parseval/Plancherel 傅里叶等距变换可 为平稳信号的特点 [6] ,对 VMD 各分量进行 Hilbert
将式 (4) 转换到频域进行计算,可得到各模态的频 变换,得到 IMF 的瞬时频率和幅值 [12] ,特征提取流
域更新,就可将中心频率的取值问题转换到频域,得 程如图1所示。
到中心频率的更新方法;同时更新λ,表达式如下: 1 ∫ ∞ u k (t )
′
H k (t) = dt, (8)
ˆ π t − t ′
∑ λ(ω) −∞
ˆ
f(ω) − ˆ u i (ω) +
2 式 (8) 中,H k (t) 为 IMF 分量的 Hilbert 变换函数,
n+1 i̸=k
ˆ u (ω) = , (5)
′
′
k 2 u k (t )为基于时间常数t 的第k 个IMF分量。
1 + 2α(ω − ω k )
VMD ڍదവগ HT
Ԕݽឦᮃ Hilbert៨ IMFᬅ៨ ᬅ៨
ѦIMF
图 1 VMD-HT 特征提取流程图
Fig. 1 VMD-HT feature extraction flow chart
Z k (t) = u k (t) + jH k (t) = a k (t)e jθ k (t) , (9) 时频率 (Mean instantaneous frequency, MIF)。根
√ 据获得的各IMF分量的MIF及幅值,计算原始信号
2
2
式(9) 中,Z k (t) 为解析函数,a k (t)= u (t)+H (t)
t k [10]
H k (t) 的MIF表示为
为第 k 个 IMF 分量的瞬时幅值,θ k = arctan
u k (t) K
∑
为相位,u k (t) 为第k 个IMF分量,H k (t)为第k 个分 ∥a k ∥MIF k
量的Hilbert变换。 MIF = k=1 . (11)
K
式(9) 中,Z k (t) 的相位表达方式突出了Hilbert ∑
∥a k ∥
变换的物理意义,是基于时间序列形成的一个振幅 k=1
和相位调制的三角函数。则 Hilbert 谱的瞬时频率 将各 IMF 分量的平均瞬时频率、幅值以及原始
定义为 [8] 信号的瞬时频率作为该语音信号的VMD-HT特征。
dθ k
W k (t) = , (10) 模态 K 通过人为方式进行调整,根据测试结
dt
其中,θ k 表示第k 个IMF分量的相位。 果,K 设置为 4 时,提取的特征效果最好,以害怕
然后,对于语音信号第 k 个 IMF 分量 u k (t) 的 (FEAR) 语音为例,得到的 4 个 IMF 边际谱如图 2
幅值 a k (t) 和瞬时频率 W k (t),计算 u k (t) 的平均瞬 所示。