Page 93 - 应用声学2019年第2期
P. 93

第 38 卷 第 2 期              王玮蔚等: 基于变分模态分解的语音情感识别方法                                           239

                                                                           ∫  ∞
             式(3)中,L({u k }, {ω k }, λ)为拉格朗日函数,α 为惩                                     2
                                                                                ω |u k (ω)| dω
             罚系数,λ(t)为拉格朗日乘子,⟨·⟩表示内积。                                n+1     0                            (6)
                                                                    ω
                                                                     k   = ∫  ∞            ,
                                                                                       2
                 采用乘法算子交替的方法求式 (3) 的鞍点,就                                        |ˆu k (ω)| dω
             得到 IMF 分量,求解过程中 u         n+1  的值会不断更新。                         0      (       ∑          )
                                       k                        ˆ n+1      ˆ n        ˆ          n+1 (ω) . (7)
                                          n
             公式 (4) 取得最小值时,u       n+1  与u 的误差小于预设              λ    (ω) ← λ (ω) + τ f(ω) −     ˆ u k
                                   k      k                                                  k
             值,u n+1  为第n + 1次迭代的第k 个IMF分量,其表
                 k                                                 每个 IMF 分量的频率中心及带宽在模型求解
             达式为
                                                               过程中,随着迭代次数不断更新,直到满足迭代条
                           { 
                           
 2     ∑
                                 [(      j  )     ]                            
 2  
   
 2
                              
                          
     件     
 n+1    n 
          < e,即可根据相应
              n+1
                                                                                   
 n+1
             u   = arg min α ∂ t   δ(t)+    · u k (t) e −jω k t 
     ˆ u k  − ˆu k 2 / ˆu k  2

              k
                   u k ∈X               πt                2       k
                      
                    
                   的频域特征得到 K 个 IMF 分量。该分解模式可以
                                            2 }

                             ∑
                      
                λ(t)
                    + 
f(t) −   u i (t) +  
   ,        (4)    自适应地对信号频带进行切割,有效避免模态混叠,
                      
                  2
                              i             2                  且 IMF 分量被固定划分为 K 个,消除了 EMD 算法
             式(4)中,X为u k 的集合,w       n+1  为第n + 1次迭代的          大量的无效分解分量,使得计算量大幅下降                    [10] 。
                                     k
                                       ∑
             第k 个IMF分量的中心频率,              u i (t) n+1  表示将第
                                                               1.2  基于VMD-HT的语音情感特征
                                       i̸=k
             n + 1 次迭代的除了第k 个IMF 分量之外的分量进                          对语音信号进行 VMD 分解得到 IMF 分量后,
             行求和。                                              为了得到能对语音情感分析的特征,利用 IMF 分量
                 利用 Parseval/Plancherel 傅里叶等距变换可               为平稳信号的特点         [6] ,对 VMD 各分量进行 Hilbert
             将式 (4) 转换到频域进行计算,可得到各模态的频                         变换,得到 IMF 的瞬时频率和幅值              [12] ,特征提取流
             域更新,就可将中心频率的取值问题转换到频域,得                           程如图1所示。
             到中心频率的更新方法;同时更新λ,表达式如下:                                               1  ∫  ∞  u k (t )
                                                                                             ′
                                                                           H k (t) =           dt,        (8)
                                           ˆ                                       π      t − t ′
                                ∑          λ(ω)                                       −∞
                         ˆ
                         f(ω) −    ˆ u i (ω) +
                                            2                  式 (8) 中,H k (t) 为 IMF 分量的 Hilbert 变换函数,
                n+1             i̸=k
               ˆ u  (ω) =                      ,        (5)
                                                                   ′
                                                                                    ′
                k                          2                   u k (t )为基于时间常数t 的第k 个IMF分量。
                             1 + 2α(ω − ω k )
                                       VMD     ڍదവগ     HT
                                Ԕݽឦᮃ                         Hilbert៨   IMF᣸ᬅ៨      ঴᣸ᬅ៨
                                               Ѧ஝IMF
                                                图 1  VMD-HT 特征提取流程图
                                          Fig. 1 VMD-HT feature extraction flow chart
                   Z k (t) = u k (t) + jH k (t) = a k (t)e jθ k (t) ,  (9)  时频率 (Mean instantaneous frequency, MIF)。根
                                             √                 据获得的各IMF分量的MIF及幅值,计算原始信号
                                                       2
                                                2
             式(9) 中,Z k (t) 为解析函数,a k (t)=     u (t)+H (t)
                                                t      k                    [10]
                                                     H k (t)   的MIF表示为
             为第 k 个 IMF 分量的瞬时幅值,θ k = arctan
                                                     u k (t)                        K
                                                                                   ∑
             为相位,u k (t) 为第k 个IMF分量,H k (t)为第k 个分                                     ∥a k ∥MIF k
             量的Hilbert变换。                                                   MIF =  k=1          .        (11)
                                                                                      K
                 式(9) 中,Z k (t) 的相位表达方式突出了Hilbert                                    ∑
                                                                                         ∥a k ∥
             变换的物理意义,是基于时间序列形成的一个振幅                                                  k=1
             和相位调制的三角函数。则 Hilbert 谱的瞬时频率                           将各 IMF 分量的平均瞬时频率、幅值以及原始
             定义为   [8]                                         信号的瞬时频率作为该语音信号的VMD-HT特征。
                                      dθ k
                             W k (t) =   ,             (10)        模态 K 通过人为方式进行调整,根据测试结
                                      dt
             其中,θ k 表示第k 个IMF分量的相位。                            果,K 设置为 4 时,提取的特征效果最好,以害怕
                 然后,对于语音信号第 k 个 IMF 分量 u k (t) 的               (FEAR) 语音为例,得到的 4 个 IMF 边际谱如图 2
             幅值 a k (t) 和瞬时频率 W k (t),计算 u k (t) 的平均瞬          所示。
   88   89   90   91   92   93   94   95   96   97   98