Page 148 - 《应用声学》2020年第3期
P. 148
468 2020 年 5 月
2.2 数据集描述 2.4 实验结果与分析
本文采用了两个版本的 THCHS-30 语料库:第 实验1
一个是通过单个碳粒扬声器,在安静的办公室环境 用上述 Bi-RNN模型对无噪声的训练集进行训
下录制的无噪声音频;第二个是通过简单的波形混 练,测试集也使用无噪声的音频;同时对 DNN 与
合,在第一个版本的数据加上了白噪声和咖啡馆噪 RNN 构建模型,并采用相同的方法进行实验,其中
声,噪声和音频的能量相等。THCHS-30 的文本是 DNN 的模型结构是将上述 Bi-RNN 模型的第 3 层
从大容量的新闻选取出 1000 句,音频总时长超过 Bi-RNN 层换成全连接层。Bi-RNN 与 DNN 实验训
30 h。参与该语料库录音的人员,大部分是会说流 练集的损失函数值和正确率分别如图7与图8所示。
利普通话的大学生。
1.2
Bi-RNN
由于计算机性能的限制,本文没有对整个数据 DNN
1.0
集进行训练。选用句子的发音人数目为 22人,包括 0.8
15 名女生和 7 名男生,每句话在 30 字左右,其中陈 ૯ܿѦϙ 0.6
述句居多,约为95%左右。双音素占35%左右,三音 0.4
素占 53% 左右,单音素与四音素共占 12% 左右,双 0.2
音素与三音素覆盖率较好。本文共建立了 3 个训练 0
0 20 40 60 80 100
集以及 3 个相对应的测试集,每个训练集包括 2241 ᤖ̽
句话,测试集包括 249句话,这 3 个训练集的差别只
图 7 两种不同模型的损失函数
是在于带噪声的类型,其他方面设置保持一致,并且
Fig. 7 Loss function of two different models
训练集与测试集的文字内容是相一致的。
1.0
2.3 模型的构建
0.8
基于上述 Bi-RNN 的优点,本文采用 Bi-RNN
ᆸဋ
构建模型。在文献 [18] 中,DNN 的性能并不是随着 0.6
层数增加而增加的,并表明 3∼5 个隐层的 DNN 结 0.4
构是合适的。据此本文所构建的模型共包括5层,其 0.2 Bi-RNN
中第 1 层、第 2 层与第 4 层都为 852 个单元的全连接 0 DNN
层,激活函数采用 ReLU;第 3 层为 852 维的双向循 0 20 40 60 80 100
ᤖ̽
环神经网络,为了减小模型产生过拟合现象,在每层
图 8 两种不同模型的识别正确率
后面加一个Dropout 层;第5层为全连接层,并采用
Fig. 8 Recognition accuracy of two different models
(X + 1) 个单元的 Softmax 用于分类,其中 X 表示
字体的个数,1 表示空白符号,X + 1 表示字体与空 由图 7 和图 8 可以看出,Bi-RNN 模型的损失函
白符号的概率分布。语音识别属于神经网络中的时 数值下降到稳定的速度最快,且训练集的正确率也
序类分类,通过联结主义时间分类 (Connectionist 高。两种模型的训练集的正确率相差不大,正确率
temporal classification, CTC)来解决输入与输出的 都在 93%左右。但测试集的效果显示 Bi-RNN 模型
序列长度不等的问题。使用 ctc_loss 方法来计算损 远强于 DNN 模型。在用 DNN 模型进行训练时,其
失值。模型如图6所示。 在训练集上的效果很好,但在测试集上错误率大大
增加。从数据上表现出DNN模型产生了“过拟合”。
Л Л Л Л Bi-RNN 结构相对于 DNN 结构更加复杂,Bi-
ᣥК ᤌ Dropout ᤌ Dropout Bi-RNN Dropout ᤌ Dropout ᤌ ᣥѣ
ଌ ଌ ଌ ଌ Softmax RNN 对上下文相关性的拟合较强,理论上 Bi-RNN
ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ ࡏ
相对于 DNN 更应该陷入过拟合的问题,而结果显
图 6 模型结构示意图 示 Bi-RNN 的识别错误率更低,因此单纯用 “过拟
Fig. 6 Schematic diagram of model structure 合”来解释是自相矛盾的。通过对DNN的神经元进