Page 68 - 《应用声学》2020年第2期
P. 68

226                                                                                  2020 年 3 月


             于更宽 CNN研究却相对匮乏。因此,本文在上述研                          的卷积核提取具有代表性的语音特征,加强模型的
             究的基础上对 DCNN宽度上进行深入研究,进而提                          非线性化程度,从而使得网络具有更优越的拟合性
             出 MCNN 网络结构,即通过 “并联” 方式将网络进                       能 [15,24] ,最后对提取的高维特征进行拼接,得到全
             行融合构建既深又宽的网络,最终结合CTC目标函                           部的特征序列:
             数构建MCNN-CTC声学模型,其结构如图3所示。                                                 (        )
                                                                                         l
                                                                            l
                                                                                            l
                                                                          H = Concat h , h , h l k  ,     (9)
                                                                                            j
                                                                                         i
                               ᤌଌ௑ऀѬዝ
                                                               式(9)中,h 、h 、h 分别代表3条不同支路的第i、j、
                                                                               l
                                                                            l
                                                                         l
                                 Лᤌଌࡏ                                    i  j  k
                                  eee                          k 张特征图,Concat(·)函数表示拼接特征图得到第l
                                Лᤌଌࡏ                           层的总特征图H 。
                                                                              l
                                    Concat()
                                                               2.1  SE模块
                        ෉ӑࡏ      ෉ӑࡏ       ෉ӑࡏ
                        Ԅሥࡏ      Ԅሥࡏ       Ԅሥࡏ                     图 4 中,X i 表示对应层的输入特征矩阵,X o
                        Ԅሥࡏ      Ԅሥࡏ       Ԅሥࡏ                 表示经过 SENet 模型输出的特征矩阵。H、W、C
                                                               分别表示特征矩阵的三维信息;F sq (·)、F ex (·,W i )、
                        ෉ӑࡏ      ෉ӑࡏ       ෉ӑࡏ
                                                               F scale (·, )分别代表SENet内部变换,计算公式如下:
                        Ԅሥࡏ      Ԅሥࡏ       Ԅሥࡏ
                                                                                         H  W
                        Ԅሥࡏ      Ԅሥࡏ       Ԅሥࡏ                                      1   ∑ ∑
                                                                  z c = F sq (u c ) =          u c (i, j),  (10)
                                                                                 H × W
                                 ឦᮃྲढ़                                                   i=1 j=1
                                                                  s = F ex (z, W ) = σ (W 2 f (W 1 z)) ,  (11)
                图 3  多路卷积神经网络语音识别声学模型结构图
                                                                  X o = F scale (u c , s c ) = s c · u c ,  (12)
               Fig. 3  Acoustic model structure diagram of
               speech recognition based on multipaths convolu-
                                                               其中,u c 表示经过卷积变换后第c个特征;z c 表示经
               tional neural network
                                                               过全局平均池化变换后的第 c 个特征映射;σ(·) 表
                 传统的深度卷积神经网络仅在单条分支上提                           示 sigmoid 激活函数;s c 表示经过全连接之后相应
             取语音序列中代表性特征            [24] ,由于语音序列的多样            特征图对应的权值;W 1 、W 2 分别代表两层全连接
             性,造成 DCNN 在提取特征时遗漏重要特征,从而                         层的权值矩阵,其中 W 1 ∈ R          c/γ×c 、W 2 ∈ R c×c/γ ,
             降低整体的识别准确率。为解决上述问题,本文提                            其中 γ 为第一层全连接层的维度变换率;通过上述
             出了多路卷积神经网络,即采用 3 条不同的分支分                          计算,最终自适应得到特征图对应的权重                   [25] 。
             别提取语音序列特征,弥补了单条分支提取特征的
             不足,降低了由于特征缺乏对模型识别率的影响。                            2.2  SE-MCNN模型
             最终,采用反向传播 (Back propagation, BP) 算法                   综合利用SENet与MCNN各自的优势,构建了
             对模型中可训练参数进行调整              [15] 。                 SE-MCNN-CTC 模型,使用 SENet 模型对 MCNN
                 MCNN 先提取语音特征,分别将其无差别的                         提取的特征进行概率重标定,在合适的参数范围内
             输入到 3 条不同分支的 DCNN 中,既能在深度方向                       减少MCNN模型特征冗余现象。SE-MCNN模型如
             提取网络的重要特征,又可在宽度方向通过不同                             图5所示。

                                                    F ex↼S֒W ↽  F ex ↼S֒W  ↽
                                                     ⊲             ⊲
                                                     ⊲             ⊲
                                   X i   F sq↼κ↽                                        X o
                                                     ⊲             ⊲
                                                           C 
                                                 C                    C   F scale↼S֒ S↽
                                      H                                                    H
                                       W                                                    W
                                C                                                    C
                                                   图 4  SENet 模型结构图
                                                Fig. 4 The structure of SENet
   63   64   65   66   67   68   69   70   71   72   73