Page 148 - 《应用声学》2020年第3期
P. 148

468                                                                                  2020 年 5 月


             2.2 数据集描述                                         2.4  实验结果与分析
                 本文采用了两个版本的 THCHS-30 语料库:第                         实验1
             一个是通过单个碳粒扬声器,在安静的办公室环境                                用上述 Bi-RNN模型对无噪声的训练集进行训
             下录制的无噪声音频;第二个是通过简单的波形混                            练,测试集也使用无噪声的音频;同时对 DNN 与
             合,在第一个版本的数据加上了白噪声和咖啡馆噪                            RNN 构建模型,并采用相同的方法进行实验,其中
             声,噪声和音频的能量相等。THCHS-30 的文本是                        DNN 的模型结构是将上述 Bi-RNN 模型的第 3 层
             从大容量的新闻选取出 1000 句,音频总时长超过                         Bi-RNN 层换成全连接层。Bi-RNN 与 DNN 实验训
             30 h。参与该语料库录音的人员,大部分是会说流                          练集的损失函数值和正确率分别如图7与图8所示。
             利普通话的大学生。
                                                                      1.2
                                                                                                 Bi-RNN
                 由于计算机性能的限制,本文没有对整个数据                                                            DNN
                                                                      1.0
             集进行训练。选用句子的发音人数目为 22人,包括                                 0.8
             15 名女生和 7 名男生,每句话在 30 字左右,其中陈                           ૯ܿѦ஝ϙ  0.6
             述句居多,约为95%左右。双音素占35%左右,三音                                0.4

             素占 53% 左右,单音素与四音素共占 12% 左右,双                             0.2
             音素与三音素覆盖率较好。本文共建立了 3 个训练                                   0
                                                                          0    20    40    60   80   100
             集以及 3 个相对应的测试集,每个训练集包括 2241                                              ᤖ̽൓஝
             句话,测试集包括 249句话,这 3 个训练集的差别只
                                                                          图 7  两种不同模型的损失函数
             是在于带噪声的类型,其他方面设置保持一致,并且
                                                                    Fig. 7 Loss function of two different models
             训练集与测试集的文字内容是相一致的。
                                                                      1.0
             2.3 模型的构建
                                                                      0.8
                 基于上述 Bi-RNN 的优点,本文采用 Bi-RNN
                                                                    ൤ᆸဋ
             构建模型。在文献 [18] 中,DNN 的性能并不是随着                             0.6
             层数增加而增加的,并表明 3∼5 个隐层的 DNN 结                              0.4
             构是合适的。据此本文所构建的模型共包括5层,其                                  0.2                        Bi-RNN

             中第 1 层、第 2 层与第 4 层都为 852 个单元的全连接                          0                         DNN
             层,激活函数采用 ReLU;第 3 层为 852 维的双向循                              0     20    40    60   80    100
                                                                                      ᤖ̽൓஝
             环神经网络,为了减小模型产生过拟合现象,在每层
                                                                         图 8  两种不同模型的识别正确率
             后面加一个Dropout 层;第5层为全连接层,并采用
                                                                 Fig. 8 Recognition accuracy of two different models
             (X + 1) 个单元的 Softmax 用于分类,其中 X 表示
             字体的个数,1 表示空白符号,X + 1 表示字体与空                           由图 7 和图 8 可以看出,Bi-RNN 模型的损失函
             白符号的概率分布。语音识别属于神经网络中的时                            数值下降到稳定的速度最快,且训练集的正确率也
             序类分类,通过联结主义时间分类 (Connectionist                    高。两种模型的训练集的正确率相差不大,正确率
             temporal classification, CTC)来解决输入与输出的             都在 93%左右。但测试集的效果显示 Bi-RNN 模型
             序列长度不等的问题。使用 ctc_loss 方法来计算损                      远强于 DNN 模型。在用 DNN 模型进行训练时,其
             失值。模型如图6所示。                                       在训练集上的效果很好,但在测试集上错误率大大
                                                               增加。从数据上表现出DNN模型产生了“过拟合”。
                  Л      Л              Л       Л                  Bi-RNN 结构相对于 DNN 结构更加复杂,Bi-
              ᣥК  ᤌ  Dropout  ᤌ  Dropout  Bi-RNN  Dropout  ᤌ  Dropout  ᤌ  ᣥѣ
                  ଌ      ଌ              ଌ       ଌ   Softmax    RNN 对上下文相关性的拟合较强,理论上 Bi-RNN
                  ࡏ  ࡏ   ࡏ   ࡏ  ࡏ   ࡏ   ࡏ   ࡏ   ࡏ
                                                               相对于 DNN 更应该陷入过拟合的问题,而结果显

                           图 6  模型结构示意图                        示 Bi-RNN 的识别错误率更低,因此单纯用 “过拟
                 Fig. 6 Schematic diagram of model structure   合”来解释是自相矛盾的。通过对DNN的神经元进
   143   144   145   146   147   148   149   150   151   152   153