Page 150 - 《应用声学》2020年第3期
P. 150
470 2020 年 5 月
为19.32%,相对于 DNN模型与改进的 CNN模型都
8
7
有了降低。由此可以看出,Bi-RNN 可同时利用上
6 下文信息,发挥出其独特的优势。当使用 Bi-RNN
ᮠဋ/kHz 5 4 模型对 3 种不同类型的音频进行实验时,在无噪声
3
的测试集上错误率为 19.32%,在带咖啡馆噪声的测
2
试集的错误率为 24.25%,在带白噪声的测试集的错
1
0 误率为 27.16%,在无噪声的音频条件下实验效果最
0 2 4 6 8
ᫎ/s 好;当采用基于某一语音库所训练的模型对其他两
图 11 纯净音频语谱图 个环境下的音频进行测验时,效果很差,说明采用单
Fig. 11 Pure audio spectrum 个训练集训练的模型无法适应不同噪声类型的音
频,在以后的研究中将考虑联合训练。在探索隐含
实验3 层的神经元数量对识别效果的实验中,当隐含层每
为了研究隐含层中神经元数量对实验效果的 层神经元数量在682∼852时,效果最好。同时,识别
影响,采用 Bi-RNN模型,通过对隐含层神经元个数 错误率并不是随着隐含层每层神经元的增加而降
调整,进行识别。 低,甚至当神经元个数增加到一定程度时,识别错误
实验结果如表3所示,当神经元数量增加到512
率不下降反而上升。
时,识别错误率大幅减少,这是因为隐含层节点数量
过少,导致网络的学习与处理能力较差;而当神经元 3 结论
数量大于512时,识别错误率的减少程度较缓,说明
了神经元的数量将趋于饱和状态;当神经元数量大 自深度学习的概念提出后,深度学习在语音识
于等于 1024 时,错误率出现增加趋势,说明再增加 别方面相较于传统的方法,如混合高斯模型,在性
神经元数量,就会出现在训练集上有很好的识别效 能有了很大的提升。其中基于 Bi-RNN 模型在语音
果,但是在测试集上的识别效果变差的现象,即出现 识别方面更是具其独特的优势。本文使用 Bi-RNN
过拟合现象。 进行语音方面了探索,并与 DNN和改进的 CNN 进
行比较,初步验证了 Bi-RNN 在语音识别方面的独
表 3 不同神经元数量的实验结果 特优势。同时对含有噪声的音频的识别效果进行测
Table 3 Experimental results for different 试,以及隐含层神经元数量对识别效果的影响方面,
numbers of neurons
做了初步的探索。结果如下:(1) 在汉语语音识别中
隐含层每层神经元数量 识别错误率/% 采用 Bi-RNN 模型得到了在同样条件下高于 DNN
64 54.53 和改进的 CNN 的识别率,成功地构建了一个汉语
128 47.91 识别模型;(2) 初步考察了噪声对Bi-RNN汉语识别
256 39.85 模型的影响,分析了白噪声的影响大于咖啡馆噪声
512 19.32 的原因;(3) 研究了Bi-RNN汉语识别模型中隐含层
682 18.24
中神经元数量对识别率的影响,提出了该模型中核
852 18.92
心层神经元数量为682∼852的最优设计。
1024 21.73
本文由于一些软件与硬件资源上的限制,有许
2048 29.67
多问题还需要进一步的探索。主要有:
从这 3 个实验可看出,Bi-RNN 相对于 DNN 在 (1) 在进行探讨隐含层神经元的数量对识别效
语音识别方面效果更加良好,两个模型在无噪 果的实验中,只是提出了神经元数量并不是越多
声的训练集上效果相差不大。但是在测试集上, 越好,但是对不同结构的神经网络结构神经元数量
DNN 模型错误率在 54.76%,文献 [17] 所提出的改 的合理设定的范围,并未给出结果,需要进一步的
进 CNN 错误率在 22.19%,而 Bi-RNN 模型错误率 探索。