Page 70 - 《应用声学》2020年第2期
P. 70

228                                                                                  2020 年 3 月


             3.4 实验分析                                              表 3 列出了本文提出的两种声学模型实验结
                 为验证提出的 MCNN-CTC 以及 SE-MCNN-                   果,其中 MCNN(7)-CTC 表示 MCNN 层数为 7 层;
             CTC 声学模型的性能,在 Thchs30 以及 ST-CMDS                  SENet 模型在 7 层 MCNN 模型上进行改进,其中
             数据集上对上述模型进行实验。                                    SE-MCNN(7)-CTC 训练、微调训练曲线如图 6(a)
                                                               与图6(b)所示。
             3.4.1 Thchs30 实验结果分析
                                                                     180
                 首先以音节为建模单元在 Thchs30 数据集进
                                                                     160
             行声学模型实验,参考文献 [32] 构建神经网络模型,                             140
                                                                     120
             然后采用 7 层卷积层,并联合 CTC 损失函数,构建                             100
             了DCNN(7)-CTC 声学模型。在上述声学模型基础                            ૯ܿϙ  80
                                                                      60
             上,增加卷积层数目到 8 层和 9 层,研究不同卷积层                              40
             数目对声学模型的影响。最终,DCNN-CTC声学模                                20
                                                                       0
             型结构如图2所示,其实验结果如表2所示。                                       0      10     20       30      40
                                                                                    ᝫጷ஝૶/W
                 表 2 中,对比 GMM-HMM 以及 DNN-HMM 的                                (a) Thchs30 ᝫጷ૯ܿԫӑజጳ
             实验结果,其中建模单元为音素,最终得到测试集字
                                                                     19.5
             错误率;本文建模单元均为音节,最终得到音节错误                                 19.0
             率;DCNN(7)-CTC 表示声学模型中卷积层数目为                             18.5
             7 层,表 2 不仅验证了 DCNN-CTC 用于声学建模的                         ૯ܿϙ 18.0
                                                                     17.5
             有效性,而且可得出随着 CNN 深度增加,错误率在                               17.0
             不断降低,最终DCNN-CTC错误率降至25.42%。                             16.5
                                                                     16.0
                                                                     15.5
                   表 2   DCNN-CTC 声学模型实验结果                              0    1    2     3   4     5    6
                Table 2    The experimental results of                              ᝫጷ஝૶/W
                                                                             (b) Thchs30 ॲូ૯ܿԫӑజጳ
                DCNN-CTC acoustic model
                                                                         图 6  Thchs30 实验损失值曲线图
                  声学模型       建模单元 参数数量 测试集错误率/%
                                                                     Fig. 6 The loss curve of Thchs30 dataset
               GMM-HMM  [27]  音素       —         30.53
               DNN-HMM  [27]  音素       —         25.16             综上所述:(1) MCNN(7)-CTC、MCNN(8)-
               CNN-HMM  [33]  音素       —         24.10         CTC 以及 MCNN(9)-CTC 相较于 DCNN(7)-CTC、
               BLSTM-CTC [34]  音素      —         25.35         DCNN(8)-CTC、DCNN(9)-CTC 音节错误率分别
               DCNN(7)-CTC    音节     1.95 M      26.65         相对降低 12.08%、3.16%以及 1.89%,由此可以得出
               DCNN(8)-CTC    音节     2.10 M      25.66
                                                               MCNN-CTC 声学模型相较于 DCNN-CTC 声学模
               DCNN(9)-CTC    音节     2.25 M      25.42
                                                               型效果更佳;(2) SE-MCNN(7)-CTC 声学模型参数
                表 3 MCNN-CTC 与 SE-MCNN-CTC 声学                  仅相对增加1.04%,最终识别结果相较于DCNN(7)-
                模型实验结果                                         CTC 错误率相对降低 13.51%,融入 SENet 模型的
                Table 3    The experimental results of         声学模型识别效果更强。
                MCNN-CTC and SE-MCNN-CTC acous-
                                                               3.4.2  ST-CMDS 实验结果分析
                tic model
                                                                   为验证 MCNN-CTC 以及 SE-MCNN-CTC 声
                  声学模型        建模单元    参数数量    测试集错误率/%         学 模 型 的 泛 化 能 力,            选 取 Thchs30 数 据
               MCNN(7)-CTC     音节     4.77 M      23.43        集 中 DCNN(7)-CTC、 MCNN(7)-CTC 以 及 SE-
               MCNN(8)-CTC     音节     3.61 M      24.85
                                                               MCNN(7)-CTC 三个不同的声学模型在 ST-CMDS
               MCNN(9)-CTC     音节     3.72 M      25.18
                                                               数据集上进一步实验。图 7(a) 和图 7(b) 分别表示
              SE-MCNN(7)-CTC   音节     4.82 M      23.05
                                                               声学模型训练与微调的损失值变化曲线。可以看
   65   66   67   68   69   70   71   72   73   74   75