Page 95 - 应用声学2019年第2期
P. 95

第 38 卷 第 2 期              王玮蔚等: 基于变分模态分解的语音情感识别方法                                           241


                                                                 L
               50                                               ∑
                                                                    β i g(W i · X j + b i ) = o j ,  j = 1, · · · , N, (14)
              ࣨए  0                                             i=1
                                                               式 (14) 为 ELM 神经网络处理输入数据的公式,式
             -50                                               中 g(x) 为激活函数,W i = [w i,1 , w i,2 , · · · , w i,n ] 为
                                                                                                         T
                 50
                                                               输入权重,β i 为输出权重,b i 为第 i个隐藏单元的偏
                                                         12
                  ࣝ஝
                          0      2    4   6    8    10         置,X j 是输入的数据,·表示内积。
                            0
                                          ᫽஝
                                                                   单隐层神经网络学习目标是使输出误差最小,
                   图 5  FEAR 语句 12 阶 VMD-MFCC 参数
                                                               表示为
                Fig. 5 FEAR statement 12th order VMD-MFCC
                                                                               N
                parameters                                                    ∑
                                                                                 ∥o j − t j ∥ = 0,       (15)
                                                                              j=1
             2 分类算法
                                                               即存在β i 、W i 和b i ,使得
                                                                  L
             2.1 分类算法简介                                          ∑
                                                                    β i g(W i · X j + b i ) = t j , j = 1, · · · , N. (16)
                 语音情感识别中最常用的分类器是支持向量
                                                                 i=1
             机  [15−16]  (Support vector machine, SVM)、人工神         以矩阵的形式表示为
             经网络   [11,17−18]  (Artificial neural network, ANN)、
                                                                 Nβ = T ,
             K 最近邻算法      [12]  (K-nearest neighbor, KNN)、El-
                                                                 N(W 1 , · · · , W L , b 1 , · · · , b L , X 1 , · · · , X L )
             man 神经网络     [12] 、高斯混合模型        [19]  (Gaussian
                                                                                                      
             mixture model, GMM) 长短时神经网络          [20] ( Long      g(W 1 · X 1 + b 1 ) · · · g(W L · X N + b L )
                                                                         .                   .        
             short-term memory, LSTM) 和隐马尔可夫模型          [10]             .                   .             ,
                                                               =         .        · · ·      .        
             (Hidden Markov model, HMM)。在众多人工神                                                        
                                                                   g(W 1 · X N + b 1 ) · · · g(W L · X N + b L )
             经网络中,将快速模型学习与准确预测能力相                                                                       N×L
                                                                                        
             结合的极限学习机,应用于多模式情感识别和                                      β 1 T            T 1 T
                                                                                        
                                                                                         .
                                                                        .
             计算语言学,以适度的计算资源获得了最好的                                β =  .      , T =  .        ,       (17)
                                                                                       . 
                                                                      . 
             结果  [21−23] 。                                                              
                                                                       β T              T  T
                                                                        L                N
                                                                           L×m              N×m
             2.2 ELM简介
                                                               式 (17) 中,N 为隐含层节点输出,β 为隐含层到输
                 最初,ELM作为单隐层前馈网络的一种快速学                         出层的权重系数,T 为训练所需要得到的期望结果。
             习方法 ——反向传播的另一种方法提出                   [21] 。与传
                                                               为了对隐含层神经元进行训练,得到 β i 、W i 和 b i
             统的神经网络和机器学习算法相比,ELM 方法学                           的解为
             习速度快、泛化性能好。因此,本实验采用 ELM 方
                                                                     ˆ
                                                                        ˆ ˆ

                                                                
 N(W i , b i )β i − T = min ∥N(W i , b i )β i −T ∥,
             法进行情感特征分类,基本 ELM的体系结构如图 6                                              W ,b,β
             所示。                                                                                         (18)
                                                               式 (18) 中,i = 1, · · · , L,该式用最小化损失函数
                                     ⊲⊲⊲
                          T    T        T h                  表示为
                                                                          (                        ) 2
                                                                       N    L
                                                                      ∑ ∑
                                                                  E =          β i g(W i · X j + b i ) − t j  .  (19)
                                                                      j=1  i=1
                                     ⊲⊲⊲
                          N    N       N n
                                                                   传统的一些基于梯度下降法算法 (如反向传播
                                                               (Back propagation, BP)、多层感知器 (Multi-layer
                                                               perception, MLP))可以用来求解这样的问题,但这
                                         ⊲⊲⊲
                                                               些学习算法需要在迭代过程中调整所有参数。而
                     X     X     X           X k
                          图 6  ELM 基本结构图                       ELM 算法的输入层权重 W i 和隐含层 b i 在初始化
                        Fig. 6 ELM basic structure             时已被随机产生且唯一,因此隐含层的输出矩阵
   90   91   92   93   94   95   96   97   98   99   100