Page 94 - 应用声学2019年第2期
P. 94
240 2019 年 3 月
0.6 生一个对应的能量值。本实验中滤波器个数取 24,
0.4 因此可得到24个能量值。
ࣨए
0.2 VMD
ឦᮃηՂ ᮕҫ᧘ Ѭࣝ
ѬᝍnjᐑՌ
0
0 0.5 1.0 1.5 2.0 2.5
4
ᮠဋ/10 Hz
MFCC ሏஙऺ MELψ៨
(a) IMF1 ҫቔ
Ԡ ԫ૱ ฉ٨
0.4
图 3 MFCC 参数提取流程图
ࣨए 0.3 Fig. 3 MFCC parameter extraction flow chart
0.2
0.1
由于人耳对声音的感知程度具有非线性特性,
0
0 0.5 1.0 1.5 2.0 2.5
4
ᮠဋ/10 Hz 用对数形式描述更好。因此,对能量值进行对数处
(b) IMF2 理,再倒谱分析。
0.15 根据 MFCC定义,对对数能量进行反傅里叶变
0.10 换,再通过低通滤波器获得低频信号。使用离散余
ࣨए 弦变换(Discrete cosine transform, DCT)可以直接
0.05
获取低频信息,DCT 与离散傅里叶变换相似,但只
0
0 0.5 1.0 1.5 2.0 2.5 有实数部分,该过程可表示为
4
ᮠဋ/10 Hz
Q [ ( ) ]
(c) IMF3 ∑ 1 π
C m = E k × cos m k − ,
0.15 2 Q
k=1
ࣨए 0.10 m = 1, · · · , L, (13)
0.05 式 (13) 中,E k 为第 k 个滤波器的对数能量值;Q 为
0 三角滤波器个数,一般取 22∼26;m 为当前计算的
0 0.5 1.0 1.5 2.0 2.5
ᮠဋ/10 Hz MFCC 特征参数的维数,L 取 12,12 维 MFCC 特征
4
(d) IMF4 参数足以代表一帧语音特征 [14] 。
图 2 各 IMF 信号的边际谱图 以 EMODB 中害怕情感语句为例,以 256 个点
Fig. 2 The marginal spectrum of each IMF signal 为一帧,帧移为 64,Mel 倒谱滤波器取 24个,预加重
系数为 0.95,计算 12 阶 MFCC 参数如图 4 所示。采
1.3 基于VMD-MFCC的语音情感特征
用本文方法对语音进行分解后提取的 MFCC 参数
MFCC由Stevens在1937年提出 [11] ,MFCC参
如图 5 所示。由图 4 可知,直接提取的 MFCC 特征
数是基于人耳对不同频率声音有不同敏感度的特
参数每一帧之间差别较大,经过处理后的语音信号
点提出的,揭示了人耳对高频信号的敏感度低于低
的MFCC特征参数每帧之间差别明显降低,可以使
频信号的特点。语音信号由频率 f 转换到 Mel 尺度
MFCC特征更易于通过分类器进行识别。
的表达式为 [12−13]
f Mel (f) = 2595 × lg(1 + f/700). (12) 40
20
语音信号通过VMD 分解后,剔除余波分量,再 0
重新聚合,对聚合信号提取 MFCC 参数,即得到 ࣨए
-20
VMD-MFCC 特征。在将信号进行 VMD 分解之后, -40
400
提取MFCC参数的过程分为数步,流程如图3所示。 200 10 12
6
MFCC 参数提取采用一组基于 Mel 尺度的三 ࣝ 0 0 2 4 8
角带通滤波器,将语音信号转换到频域后,对语音信 图 4 FEAR 语句 12 阶 MFCC 参数
号进行滤波处理,使语音信号遵循 Mel 尺度的衰减 Fig. 4 FEAR statement 12th order MFCC pa-
特性。滤波器组对频域信号进行切分,每个频段产 rameters