Page 92 - 应用声学2019年第2期
P. 92

238                                                                                  2019 年 3 月


                                                                   为了提高语音情感特征识别性能,解决基于
             0 引言
                                                               EMD 和EEMD算法的语音情感特征模态混叠和计
                                                               算量过大的缺点,本文将变分模态分解 (Variational
                 在多种通信方式中,语音信号是人与人、人与
                                                               modal decomposition, VMD)方法引入到语音情感
             机器通信最快的自然方法。人类甚至可以从语音交
                                                               特征提取中      [10] ,提出基于 VMD 分解的语音情感
             流中感觉到说话人的情绪状态。语音情感是分析声
                                                               特征,采用极限学习机(Extreme learning machine,
             音行为的一种方法,是指各种影响 (如情绪、情绪和
                                                               ELM) 将本文特征与语音基音特征、谱特征作为分
             压力)的指针,侧重于语音的非言语方面。在这种情
                                                               类特征进行实验。结果表明,相较于传统语音特征
             况下,语音情感识别的主要挑战是提取一些客观的、
                                                               以及基于 EMD、EEMD的语音情感特征,本文提出
             可测量的语音特征参数,这些参数可以反映说话人
                                                               的特征能更好地表示语音的情感特征,提高了语音
             的情绪状态。近年来,语音情感识别在人机通信、机
                                                               情感的识别准确率。
             器人通信、多媒体检索等领域得到了广泛关注。语
             音情感识别研究主要是利用语音中的情感和语音
                                                               1 特征提取
             特征的统计特性,进行一般定性的声学关联                    [1−2] 。
                 语音情感识别的主要工作为语音情感特征提                           1.1  VMD分解
             取和分类网络模型选择。当前国内外的研究方向多                                VMD 方法与反复循环剥离进行模态函数分解
             为分类网络模型选择,而情感特征提取方向研究内                            的EMD 方法不同,VMD 通过对变分模型的最优极
             容较为匮乏,因此,提取有效的语音情感特征也是                            值求解,实现自适应地获取 IMF,在迭代过程中不
             当前语音情感识别的关键任务。2004年,Ververidis                    断更新每个IMF分量的中心频率和带宽                  [10−11] 。
             等  [3]  从能量、基音和语音频谱的动态行为中提取出                          IMF分量表达式为
             87个静态特征,并提出了谱平坦度测度与谱中心的
                                                                           u k (t) = A k (t) cos(φ k (t)),  (1)
             比值作为说话人独立的特征,利用帧级特征、基音
             周期、能量和Mel倒谱系数(Mel frequency cepstral              其中,u k (t)为第k 个IMF分量,0 < k < K+1,A k (t)
             coefficents, MFCC)对性别和情感进行了层次分类。                    为第k 个IMF分量的幅值,φ k (t)为第k 个IMF分量
             2011 年,Sun 等  [4]  将 Teager 能量中提取的小波系             的相角,t为时间。
             数引入到语音情感识别中。2008 年,韩一等                   [5]  将       约束条件为
                                                                        {                                  }
             MFCC 参数作为特征对语音情感进行识别,也取得                                     ∑   
 [(       j  )     ]     
 2
                                                                  min         
    δ(t)+    · u k (t) e −jω k t
                                                                              
∂ t

             了较好的结果。                                            {u k }{w k }            πt                2
                                                                           k
                 2011年,He 等   [6]  首先将经验模态分解 (Empir-              s.t.  ∑  u k = f,                       (2)
             ical mode decomposition, EMD) 引入到语音情感                     k
             识别中。2015年,Sethu等       [7]  利用EMD将语音进行            式 (2) 中,{u k } := {u 1 , · · · , u K },u k (t) 记为 u k ,
             分解,以分解得到的固有模态函数 (Intrinsic mode                   {u k } 为分解到的 K 个有限带宽的 IMF 分量的集
             functions, IMF) 分量进行语音分类。Shahnaz 等          [8]   合,u k 表示分解到的第 k 个有限带宽的 IMF 分
             将 EMD 和小波分析相结合,通过选取主导 IMF 分                       量, ∂ t 为 微 分 算 子, δ(t) 为 狄 利 克 来 函 数, j
             量,不仅减少了计算负担,而且避免包含冗余或信息                           为 虚 数 符 号,e 为 自 然 常 数,f(t) 为 约 束 函 数,
             量较少的数据,得到了 80.55% 的语音情感识别准                        {ω k } := {ω 1 , · · · , ω K },{ω k } 为 K 个 IMF 分量所
             确率。向磊     [9]  将集合固有模态函数 (Ensemble em-            对应的中心频率的集合,ω k 表示第 k 个IMF 分量所
                                                                                  2
             pirical mode decomposition, EEMD) 和希尔伯特           对应的中心频率,∥·∥ 表示范数;通过拉格朗日函
                                                                                  2
             (Hilbert) 边际谱相结合,有效地解决了传统 EMD                     数求该约束条件下的最优解,生成的拉格朗日表
             分解带来的模态混叠问题。                                      达式为


                                                                 
              
 2  ⟨                 ⟩
                                    
 [(
                                 ∑              j  )   ]      2 
       ∑       
              ∑
              L({u k }, {ω k }, λ)=α  
  δ(t)+    u k (t) e −jω k t
  
    u k (t) 
  + λ(t), f(t)−  u k (t) , (3)
                                                             
 + f(t)−
                                    
∂ t
                                               πt             2
                                  k                                      k       2              k
   87   88   89   90   91   92   93   94   95   96   97