Page 71 - 《应用声学》2020年第2期
P. 71

第 39 卷 第 2 期              张威等: SE-MCNN-CTC 的中文语音识别声学模型                                      229


             出,随着训练数据量的增加,声学模型逐渐趋于收                            4 结论
             敛,最终损失值减小到固定的范围内。DCNN-CTC
             损失值减小至 19 左右,MCNN-CTC 可降至 16 附                        本文提出了 MCNN-CTC 和 SE-MCNN-CTC
             近,最终改进后的 SE-MCNN-CTC 可以减小至 14                     两种端到端声学模型,并且通过大量的实验验
             以下,证明 SE-MCNN-CTC 较传统的 DCNN-CTC                   证了声学模型的错误率以及泛化性能,得出结论
             及MCNN-CTC能更好地训练深层模型以及上述模                          如下:
             型能够训练声学模型的有效性。                                        (1) 以音节为建模单元构建了 DCNN-CTC 声
                                                               学模型,验证了其对于声学建模的优越性;
                  210
                                          DCNN-CTC
                  180                                              (2) 提出了 MCNN-CTC 声学模型,不但在识
                                          MCNN-CTC
                  150
                                          SE-MCNN-CTC          别错误率相较于 DCNN-CTC 声学模型取得了较大
                 ૯ܿϙ  120                                      的降低,而且具有较强的泛化性能;
                   90
                                                                   (3) 融合了 SENet 与 MCNN 模型,提出了 SE-
                   60
                   30                                          MCNN-CTC 声学模型,通过特征通道自适应重标
                   10                                          定既减小特征冗余的影响,又实现了声学模型性能
                     0    10   20    30   40    50   60
                                 ᝫጷ஝૶/W                        的进一步提升。
                           (a) ST-CMDSᝫጷ૯ܿԫӑజጳ
                   40
                                          DCNN-CTC                            参 考 文        献
                   35                     MCNN-CTC
                                          SE-MCNN-CTC
                   30                                            [1] Hinton G, Deng L, Yu D, et al. Deep neural networks
                 ૯ܿϙ  25                                           for acoustic modeling in speech recognition: the shared
                   20                                              views of four research groups[J]. IEEE Signal Processing
                                                                   Magazine, 2012, 29(6): 82–97.
                   15
                                                                 [2] Graves A, Mohamed A R, Hinton G. Speech recognition
                   10
                     0    1    2    3     4     5    6             with deep recurrent neural networks[C]// InterSpeech.
                                 ᝫጷ஝૶/W                            Canada, 2013: 6645–6649.
                           (b) ST-CMDSॲូ૯ܿԫӑజጳ                   [3] Seltzer M L, Ju Y C, Tashev I, et al.  In-car media
                                                                   search[J]. IEEE Signal Processing Magazine, 2011, 28(4):
                      图 7  ST-CMDS 实验损失值曲线图                        50–60.
                                                                 [4] 李云红, 梁思程, 贾凯莉, 等. 一种改进的 DNN-HMM 的语音
                  Fig. 7 The loss curve of ST-CMDS dataset
                                                                   识别方法 [J]. 应用声学, 2019, 38(3): 371–377.
                 由表 4 可得出,MCNN-CTC 相较于 DCNN-                       Li Yunhong, Liang Sicheng, Jia Kaili, et al. An improved
                                                                   DNN-HMM speech recognition method[J]. Journal of Ap-
             CTC 参 数 量 得 到 了 极 大 的 降 低, 可 训 练 参 数
                                                                   plied Acoustics, 2019, 38(3): 371–377.
             相对降低 13.60%,在验证集和测试集错误率分                            [5] Parinia B, Albert Z, Ralf S, et al. On using 2D sequence-
             别相对降低 3.94%、3.49%;SE-MCNN-CTC 相较                      to-sequence models for speech recognition[C]// IEEE In-
                                                                   ternational Conference on Acoustics, Speech and Signal
             于 DCNN-CTC 在验证集和测试集错误率分别有
                                                                   Processing. Brighton, 2019: 5671–5675.
             4.11%、6.68%的相对降低,错误率最低。                             [6] 余栋, 邓力. 解析深度学习: 语音识别实践 [M]. 余凯, 钱彦旻,
                                                                   译. 第 5 版. 北京: 电子工业出版社, 2017: 78–89.
                    表 4   ST-CMDS 数据集的实验结果                       [7] Li J, Yu D, Huang J, et al. Improving wideband speech
                Table 4 The experimental results of ST-            recognition using mixed-bandwidth training data in CD-
                CMDS dataset                                       DNN-HMM[C]// Spoken Language Technology Work-
                                                                   shop. Miami, 2013: 131–136.
                                                                 [8] Peddinti V, Wang Y, Povey D, et al. Low latency acous-
                                         验证集       测试集
                   声学模型        参数数量                                tic modeling using temporal convolution and LSTMS[J].
                                        错误率/%    错误率/%
                                                                   IEEE Signal Processing Letters, 2018, 25(3): 373–377.
                DCNN(7)-CTC     7800110   23.86    23.80         [9] Wang P, Li J, Xu B. Applying connectionist tempo-
                MCNN(7)-CTC     6738014   22.92    22.97           ral classification objective function to Chinese mandarin
                                                                   speech recognition[C]// International Symposium on Chi-
               SE-MCNN(7)-CTC   6767342   22.88    22.21           nese Spoken Language Processing. Tianjin, 2016: 1–5.
   66   67   68   69   70   71   72   73   74   75   76