Page 91 - 201903
P. 91

第 38 卷 第 3 期              李云红等: 一种改进的 DNN-HMM 的语音识别方法                                       373


             每层节点的采样值均由两层连接的节点共同计算。                            公式 (5) 中等号左边是似然函数 p(v),右边第一项
             但是 DBM 模型训练时间长度与它的层数和每层的                          是整个网络自由能量总和的负值。
             节点数有关。DBN模型是由四层 RBM 组成的有向                             整个深度神经网络模型应用误差反向传播算
             图模型,在预训练过程中,上层是输出,下层是输入。                          法,让目标函数获得最优值,从而达到训练目的。针
             所有层训练完毕后,由最上层开始向下进行有监督                            对深度神经网络进行训练时,目标函数通常替换为
             微调。                                               交叉熵,在实际优化阶段,使用随机梯度下降法来处
                 如图 1 所示,DNN-HMM 模型和改进的 DNN-                   理。换言之,对于多状态分类问题中目标函数往往
             HMM 模型都有 1 个输入层,4 个隐藏层,1 个输出                      使用取负值的对数概率,如公式(6)所示:
             层。h 1 、h 2 、h 3 、h 4 分别对应4个隐藏层,W 1 、W 2 、W 3 、                        U  T u
                                                                                  ∑ ∑
             W 4 、W 5 分别对应层间的连接权重。模型相同层节                                 F CE = −        log y ut (s ut )  (6)
                                                                                  u=1 t=1
             点不连接,不同层节点之间全部连接。DNN-HMM
                                                               其中,s ut 是 t 时刻的状态,F CE 为状态标签与预
             模型输入层、h 1 、h 2 、h 3 、h 4 之间是有向图全连接的
                                                               测状态分布 y(s) 之间的交叉熵。目标函数与输入
             DBN 模型。改进的 DNN-HMM 模型的输入层、h 1 、
                                                               a ut (s)间的梯度可以记为
             h 2 之间是无向图全连接的 DBM 模型,h 2 、h 3 、h 4 之
                                                                  ∂F CE      ∂ log y ut (s ut )
             间是有向图全连接的 DBN 模型。固定长度的向量                                    = −             = y ut (s) − δ ss ut  (7)
                                                                 ∂a ut (s)     ∂a ut (s)
             作为模型输入,改进的 DNN-HMM 模型先由 h 1 、h 2
                                                                             是克罗内克函数,满足:
                                                               公式(7)中δ ss ut
             训练,h 2 作为 DBM 模型的输出层,同时也是 h 3 、h 4                                   
             的输入,输出是当前输入信息的特征表示。                                                    1   s = s ut
                                                                           δ ss ut  =           ,         (8)
                 RBM 是基于能量的模型,可以捕获变量的相                                              0   s ̸= s ut
             关性。其定义为
                                                               由公式 (8),网络参数的调整方法使用反向传播
                          n  m           m         n
                         ∑ ∑             ∑        ∑            算法。
             E(v, h) = −       w ij h i v j −  b j v j −  c i h i ,
                                                                   改 进 的 DNN-HMM 模 型 与 DNN-HMM 模 型
                                                        (1)
                                                               不同的是底层使用了 DBM 模型对输入的语音信
             公式 (1) 表示每一个可视节点与隐藏节点之间构成
                                                               号进行了处理。DBM 模型中每一个隐藏节点的状
             的能量函数。其中,m 是可视节点的个数,n 是隐
                                                               态都由它直接连接的上下层节点共同计算决定,因
             藏节点的个数,b、c 是可视层和隐藏层的偏置。由
                                                               此相比 DNN-HMM 模型可以对输入的语音信号进
             于 RBM 目标函数要累加所有可视层和隐藏层节点
                                                               行更好的降维,捕捉不同语音的特征。同时,高层采
             取值的能量,其计算也面临指数级的复杂度。因此,
                                                               用 DBN 模型结构避免了 DBN 模型开始训练时容
             将计算能量累加转换为求解概率的问题,即得到的
                                                               易过拟合的现象,保持了良好的性能。
             v, h的联合概率为

                                    e −E(v,h)                  2   Fbank特征
                        p(v, h) = ∑    −E(v,h)  .       (2)
                                      e
                                    v,h
                                                                   在语音识别领域当中,使用对角协方差矩阵的
             通过公式 (2) 简化能量函数的求解,使得求解的能
                                                               GMM,将 MFCC 作为声学特征一直是研究的常用
             量值最小。由统计学的一个理论,能量低发生的概
                                                               手法。MFCC声学特征的计算过程如图2所示。
             率大,因此引入自由能量函数最大化联合概率,公式
             如下:                                                         ᮕܫေ
                                                                                  ҫቔ               ʼᝈ໚
                                   ∑                                     ᮕҫ᧘               FFT
               FreeEnergy(v) = −In    e −E(v,h) ,       (3)                       Ѭࣝ               ฉ٨ጸ
                      e −FreeEnergy(v)    ∑   −E(v,h)
               p(v) =              , Z =     e       ,  (4)                  MFCCԠ஝       DCT       log
                            Z                                                            ͸ऺԫӑ     ࠫ஝ᑟ᧚
                                          v,h
             其中,Z 是归一化因子,故联合概率可以表示为                                         图 2  MFCC 计算流程图


                     Inp(v) = −FreeEnergy(v) − InZ,     (5)                 Fig. 2 MFCC flow chart
   86   87   88   89   90   91   92   93   94   95   96