Page 148 - 《应用声学》2020年第3期

P. 148

468 2020 年 5 月

2.2 数据集描述 2.4 实验结果与分析
本文采用了两个版本的 THCHS-30 语料库：第实验1
一个是通过单个碳粒扬声器，在安静的办公室环境用上述 Bi-RNN模型对无噪声的训练集进行训
下录制的无噪声音频；第二个是通过简单的波形混练，测试集也使用无噪声的音频；同时对 DNN 与
合，在第一个版本的数据加上了白噪声和咖啡馆噪 RNN 构建模型，并采用相同的方法进行实验，其中
声，噪声和音频的能量相等。THCHS-30 的文本是 DNN 的模型结构是将上述 Bi-RNN 模型的第 3 层
从大容量的新闻选取出 1000 句，音频总时长超过 Bi-RNN 层换成全连接层。Bi-RNN 与 DNN 实验训
30 h。参与该语料库录音的人员，大部分是会说流练集的损失函数值和正确率分别如图7与图8所示。
利普通话的大学生。
1.2
Bi-RNN
由于计算机性能的限制，本文没有对整个数据 DNN
1.0
集进行训练。选用句子的发音人数目为 22人，包括 0.8
15 名女生和 7 名男生，每句话在 30 字左右，其中陈 ૯ܿѦ஝ϙ 0.6
述句居多，约为95%左右。双音素占35%左右，三音 0.4

素占 53% 左右，单音素与四音素共占 12% 左右，双 0.2
音素与三音素覆盖率较好。本文共建立了 3 个训练 0
0 20 40 60 80 100
集以及 3 个相对应的测试集，每个训练集包括 2241 ᤖ̽൓஝
句话，测试集包括 249句话，这 3 个训练集的差别只
图 7 两种不同模型的损失函数
是在于带噪声的类型，其他方面设置保持一致，并且
Fig. 7 Loss function of two diﬀerent models
训练集与测试集的文字内容是相一致的。
1.0
2.3 模型的构建
0.8
基于上述 Bi-RNN 的优点，本文采用 Bi-RNN
൤ᆸဋ
构建模型。在文献 [18] 中，DNN 的性能并不是随着 0.6
层数增加而增加的，并表明 3∼5 个隐层的 DNN 结 0.4
构是合适的。据此本文所构建的模型共包括5层，其 0.2 Bi-RNN

中第 1 层、第 2 层与第 4 层都为 852 个单元的全连接 0 DNN
层，激活函数采用 ReLU；第 3 层为 852 维的双向循 0 20 40 60 80 100
ᤖ̽൓஝
环神经网络，为了减小模型产生过拟合现象，在每层
图 8 两种不同模型的识别正确率
后面加一个Dropout 层；第5层为全连接层，并采用
Fig. 8 Recognition accuracy of two diﬀerent models
(X + 1) 个单元的 Softmax 用于分类，其中 X 表示
字体的个数，1 表示空白符号，X + 1 表示字体与空由图 7 和图 8 可以看出，Bi-RNN 模型的损失函
白符号的概率分布。语音识别属于神经网络中的时数值下降到稳定的速度最快，且训练集的正确率也
序类分类，通过联结主义时间分类 (Connectionist 高。两种模型的训练集的正确率相差不大，正确率
temporal classiﬁcation, CTC)来解决输入与输出的都在 93%左右。但测试集的效果显示 Bi-RNN 模型
序列长度不等的问题。使用 ctc_loss 方法来计算损远强于 DNN 模型。在用 DNN 模型进行训练时，其
失值。模型如图6所示。在训练集上的效果很好，但在测试集上错误率大大
增加。从数据上表现出DNN模型产生了“过拟合”。
Л Л Л Л Bi-RNN 结构相对于 DNN 结构更加复杂，Bi-
ᣥК ᤌ Dropout ᤌ Dropout Bi-RNN Dropout ᤌ Dropout ᤌ ᣥѣ
ଌ ଌ ଌ ଌ Softmax RNN 对上下文相关性的拟合较强，理论上 Bi-RNN
ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ
相对于 DNN 更应该陷入过拟合的问题，而结果显

图 6 模型结构示意图示 Bi-RNN 的识别错误率更低，因此单纯用 “过拟
Fig. 6 Schematic diagram of model structure 合”来解释是自相矛盾的。通过对DNN的神经元进

143 144 145 146 147 148 149 150 151 152 153