Page 150 - 《应用声学》2020年第3期
P. 150

470                                                                                  2020 年 5 月


                                                               为19.32%,相对于 DNN模型与改进的 CNN模型都
                     8
                     7
                                                               有了降低。由此可以看出,Bi-RNN 可同时利用上
                     6                                         下文信息,发挥出其独特的优势。当使用 Bi-RNN
                   ᮠဋ/kHz  5 4                                 模型对 3 种不同类型的音频进行实验时,在无噪声
                     3
                                                               的测试集上错误率为 19.32%,在带咖啡馆噪声的测
                     2
                                                               试集的错误率为 24.25%,在带白噪声的测试集的错
                     1
                     0                                         误率为 27.16%,在无噪声的音频条件下实验效果最
                      0     2     4      6     8
                                    ௑ᫎ/s                       好;当采用基于某一语音库所训练的模型对其他两
                          图 11  纯净音频语谱图                        个环境下的音频进行测验时,效果很差,说明采用单
                       Fig. 11 Pure audio spectrum             个训练集训练的模型无法适应不同噪声类型的音
                                                               频,在以后的研究中将考虑联合训练。在探索隐含
                 实验3                                           层的神经元数量对识别效果的实验中,当隐含层每
                 为了研究隐含层中神经元数量对实验效果的                           层神经元数量在682∼852时,效果最好。同时,识别
             影响,采用 Bi-RNN模型,通过对隐含层神经元个数                        错误率并不是随着隐含层每层神经元的增加而降
             调整,进行识别。                                          低,甚至当神经元个数增加到一定程度时,识别错误
                 实验结果如表3所示,当神经元数量增加到512
                                                               率不下降反而上升。
             时,识别错误率大幅减少,这是因为隐含层节点数量
             过少,导致网络的学习与处理能力较差;而当神经元                           3 结论
             数量大于512时,识别错误率的减少程度较缓,说明
             了神经元的数量将趋于饱和状态;当神经元数量大                                自深度学习的概念提出后,深度学习在语音识
             于等于 1024 时,错误率出现增加趋势,说明再增加                        别方面相较于传统的方法,如混合高斯模型,在性
             神经元数量,就会出现在训练集上有很好的识别效                            能有了很大的提升。其中基于 Bi-RNN 模型在语音
             果,但是在测试集上的识别效果变差的现象,即出现                           识别方面更是具其独特的优势。本文使用 Bi-RNN
             过拟合现象。                                            进行语音方面了探索,并与 DNN和改进的 CNN 进
                                                               行比较,初步验证了 Bi-RNN 在语音识别方面的独
                     表 3   不同神经元数量的实验结果                        特优势。同时对含有噪声的音频的识别效果进行测
                Table 3 Experimental results for different      试,以及隐含层神经元数量对识别效果的影响方面,
                numbers of neurons
                                                               做了初步的探索。结果如下:(1) 在汉语语音识别中
                  隐含层每层神经元数量               识别错误率/%             采用 Bi-RNN 模型得到了在同样条件下高于 DNN
                         64                   54.53            和改进的 CNN 的识别率,成功地构建了一个汉语
                        128                   47.91            识别模型;(2) 初步考察了噪声对Bi-RNN汉语识别
                        256                   39.85            模型的影响,分析了白噪声的影响大于咖啡馆噪声
                        512                   19.32            的原因;(3) 研究了Bi-RNN汉语识别模型中隐含层
                        682                   18.24
                                                               中神经元数量对识别率的影响,提出了该模型中核
                        852                   18.92
                                                               心层神经元数量为682∼852的最优设计。
                        1024                  21.73
                                                                   本文由于一些软件与硬件资源上的限制,有许
                        2048                  29.67
                                                               多问题还需要进一步的探索。主要有:
                 从这 3 个实验可看出,Bi-RNN 相对于 DNN 在                      (1) 在进行探讨隐含层神经元的数量对识别效
             语音识别方面效果更加良好,两个模型在无噪                              果的实验中,只是提出了神经元数量并不是越多
             声的训练集上效果相差不大。但是在测试集上,                             越好,但是对不同结构的神经网络结构神经元数量
             DNN 模型错误率在 54.76%,文献 [17] 所提出的改                   的合理设定的范围,并未给出结果,需要进一步的
             进 CNN 错误率在 22.19%,而 Bi-RNN 模型错误率                  探索。
   145   146   147   148   149   150   151   152   153   154   155