Page 67 - 《应用声学》2020年第2期
P. 67

第 39 卷 第 2 期              张威等: SE-MCNN-CTC 的中文语音识别声学模型                                      225


                        Input       Conv1_1  Conv1_2   Pool1   Convx_n  Poolx  FC1   FC2     Output




                                                                                                 s
                                                                                                 p
                                                                                                 f
                                                                                                 t
                                                                                                 m
                                                                                                 a
                                                                                                 x




                                                  图 1  卷积神经网络结构图
                                       Fig. 1 The structure of convolutional neural networks
             1.2 连接时序分类                                            由式 (3),依次得到 T 帧中对应的建模单元的
                                                                                      ′
                 CTC 是由 Graves 等   [10−11]  提出的一种时序分           概率分布:
                                                                                      ′
                                                                                     T
             类方法。CTC 与传统的基于 DNN-HMM 声学模型                                            ∏
                                                                          P (π|X) =    P (π t |t, X),     (4)
             不同,其不需要在时间维度上帧级别对齐标签,输入
                                                                                    t=1
             语音特征即可预测结果,通过训练降低CTC损失值                           式 (4) 中,π 为生成预测 T 序列的路径,通过累积得
                                                                                      ′
             进而降低预测值与真实标签差异,该过程极大地简                            到对应路径 π 的概率;由于 π 与 y 为多对一关系,ψ
             化了声学模型的训练流程。必须指出的是,CTC 额                          为路径与预测值转换函数,由式 (5) 得到路径对应
             外引入 “blank” 标签对静音、字间重叠等建模,简化                      预测值序列的概率:

             建模过程。因此 CTC 尤其适合序列建模,其模型结                                               ∑
                                                                         P (y|X) =         P (π|X).       (5)
             构如图2所示。
                                                                                   π∈ψ −1 (y)
                                                                   式 (6) 通过给定真实标签 y ,得到最终 CTC 损
                                                                                           ∗
                                                    ᤌ
                  ឦ    Ԅ   ෉       Ԅ   ෉       Л    ଌ          失函数,通过训练不断降低CTC损失值使得预测结
                  ᮃ    ሥ   ӑ       ሥ   ӑ       ᤌ    ௑          果逐步朝着真实标签逼近:
                  ྲ    ࡏ   ࡏ   SSS  ࡏ  ࡏ   SSS  ଌ   ऀ
                  ᝽                            ࡏ    Ѭ
                                                    ዝ                    CTC (X) = − lg (P (y |X)) .      (6)
                                                                                             ∗
                      图 2  DCNN-CTC 声学模型结构图
                                                                   目前 CTC 解码主要有三种:最大路径解码、前
                     Fig. 2 The structure of DCNN-CTC
                                                               缀束解码以及束解码           [10] 。最大路径解码旨在寻找
                                                               每个概率最大的前 z(z 6 m,m 为建模单元个数) 条
                 设给定序列 X = (x 1 , x 2 , · · · , x T ) 表示输入 T
                                                               路径对应的标签,无需字典、语言模型等先验知识,
             帧语音特征,经过神经网络输出的每帧的预测
                                                               解码过程极其简单,式 (7)、式 (8) 代表其计算过程,
             为 Y = (y 1 , y 2 , · · · , y T ),由于 CNN 中池化函数
                                 ′
                                                               y 为最终的解码结果:
                                                                ′
             的存在,使得序列的长度成倍的变短 T = nT ,
                                                         ′
                                                                        ∗
             n 为经过池化计算后特征图减小的倍数,其中                                    π = Arg max (P (π|X)) , z 6 m,      (7)
                                                                                 π
                                                                               z
                             k
             y i = (y , y , · · · , y , · · · , y ),m 为建模单元总数,
                   1
                                     m
                      2
                   I  i      i       i
                                                                        ′
                                                                              ∗
                                                                      y ≈ ψ(π ).                          (8)
              k
             y 为第 i 帧的第 k 个建模单元位置。则给定输入序
              i
             列 X,t 时刻第 k 个建模单元由神经网络 softmax 函                  2 多路卷积神经网络
             数输出的后验概率为
                                                                   近些年,卷积神经网络大多在深度方向对网络
                                         (  )
                                     exp y t k
                      P (k|t, X) = ∑       (  ′ ).      (3)    进行优化,“串联式” 连接所有层,通过提取更高维、
                                       exp y k
                                     k ′     t                 抽象的特征以达到更佳的分类性能                 [16−18] 。然而,对
   62   63   64   65   66   67   68   69   70   71   72