Page 94 - 应用声学2019年第2期
P. 94

240                                                                                  2019 年 3 月


                 0.6                                           生一个对应的能量值。本实验中滤波器个数取 24,
                 0.4                                           因此可得到24个能量值。
                ࣨए
                 0.2                                                           VMD
                                                                    ឦᮃηՂ                 ᮕҫ᧘       Ѭࣝ
                                                                              ѬᝍnjᐑՌ
                  0
                   0      0.5    1.0    1.5    2.0     2.5
                                       4
                                  ᮠဋ/10  Hz
                                                                     MFCC     ሏங͸ऺ      MELψ៨
                                  (a) IMF1                                                         ҫቔ
                                                                      Ԡ஝        ԫ૱       ໚ฉ٨
                 0.4
                                                                          图 3  MFCC 参数提取流程图
                ࣨए  0.3                                            Fig. 3 MFCC parameter extraction flow chart
                 0.2
                 0.1
                                                                   由于人耳对声音的感知程度具有非线性特性,
                  0
                   0      0.5    1.0    1.5    2.0     2.5
                                       4
                                  ᮠဋ/10  Hz                    用对数形式描述更好。因此,对能量值进行对数处
                                  (b) IMF2                     理,再倒谱分析。
                0.15                                               根据 MFCC定义,对对数能量进行反傅里叶变
                0.10                                           换,再通过低通滤波器获得低频信号。使用离散余
                ࣨए                                             弦变换(Discrete cosine transform, DCT)可以直接
                0.05
                                                               获取低频信息,DCT 与离散傅里叶变换相似,但只
                  0
                   0      0.5    1.0    1.5    2.0     2.5     有实数部分,该过程可表示为
                                       4
                                  ᮠဋ/10  Hz
                                                                             Q          [ (      )  ]
                                  (c) IMF3                                  ∑                   1 π
                                                                      C m =     E k × cos m k −      ,
                0.15                                                                            2 Q
                                                                            k=1
                ࣨए  0.10                                                    m = 1, · · · , L,            (13)
                0.05                                           式 (13) 中,E k 为第 k 个滤波器的对数能量值;Q 为
                  0                                            三角滤波器个数,一般取 22∼26;m 为当前计算的
                   0      0.5    1.0    1.5    2.0     2.5
                                  ᮠဋ/10  Hz                    MFCC 特征参数的维数,L 取 12,12 维 MFCC 特征
                                       4
                                  (d) IMF4                     参数足以代表一帧语音特征             [14] 。
                        图 2  各 IMF 信号的边际谱图                         以 EMODB 中害怕情感语句为例,以 256 个点
               Fig. 2 The marginal spectrum of each IMF signal  为一帧,帧移为 64,Mel 倒谱滤波器取 24个,预加重
                                                               系数为 0.95,计算 12 阶 MFCC 参数如图 4 所示。采
             1.3 基于VMD-MFCC的语音情感特征
                                                               用本文方法对语音进行分解后提取的 MFCC 参数
                 MFCC由Stevens在1937年提出         [11] ,MFCC参
                                                               如图 5 所示。由图 4 可知,直接提取的 MFCC 特征
             数是基于人耳对不同频率声音有不同敏感度的特
                                                               参数每一帧之间差别较大,经过处理后的语音信号
             点提出的,揭示了人耳对高频信号的敏感度低于低
                                                               的MFCC特征参数每帧之间差别明显降低,可以使
             频信号的特点。语音信号由频率 f 转换到 Mel 尺度
                                                               MFCC特征更易于通过分类器进行识别。
             的表达式为     [12−13]
                     f Mel (f) = 2595 × lg(1 + f/700).  (12)      40
                                                                  20
                 语音信号通过VMD 分解后,剔除余波分量,再                           0
             重新聚合,对聚合信号提取 MFCC 参数,即得到                            ࣨए
                                                                -20
             VMD-MFCC 特征。在将信号进行 VMD 分解之后,                       -40
                                                                  400
             提取MFCC参数的过程分为数步,流程如图3所示。                                  200                            10   12
                                                                                             6
                 MFCC 参数提取采用一组基于 Mel 尺度的三                            ࣝ஝      0 0    2   4   ᫽஝    8
             角带通滤波器,将语音信号转换到频域后,对语音信                                    图 4  FEAR 语句 12 阶 MFCC 参数
             号进行滤波处理,使语音信号遵循 Mel 尺度的衰减                            Fig. 4 FEAR statement 12th order MFCC pa-
             特性。滤波器组对频域信号进行切分,每个频段产                               rameters
   89   90   91   92   93   94   95   96   97   98   99