Page 94 - 201903
P. 94

376                                                                                  2019 年 5 月


                   23.5                                        误率下降了 0.82%。说明了在相同条件下,改进的
                               ஈᤉᄊDMN-HMM
                   23.0                                        DNN-HMM 模型相比 DNN-HMM 模型有更强的建
                               DMN-HMM                         模能力。
                 Բᩲឨဋ/%  22.0
                   22.5

                   21.5                                        4   结论
                   21.0                                            论文建立了改进的 DNN-HMM 声学模型,使

                   20.5                                        用 TIMIT 语音数据集,通过语音识别评价指标句
                      8    19   30   41    52   70   81
                                  ໚ฉ٨ጸ஝                        错误率和词错误率分析了不同 Fbank 特征滤波组
                                 (a) Բᩲឨဋॖ־
                                                               对改进的 DNN-HMM 声学模型的影响,并与 DNN-
                   4.4                                         HMM 在相同实验条件下进行了比较,证明了改进
                   4.2           ஈᤉᄊDMN-HMM                    的 DNN-HMM 声学模型和 Fbank 参数拥有更强建
                                 DMN-HMM
                   4.0                                         模能力。论文在改进 DNN-HMM 模型实验过程中,
                  ឈᩲឨဋ/%  3.8                                  发现模型前两层的 DBM无向图模型可以有效去除
                   3.6
                   3.4                                         噪音,而这也为论文后续的研究指明了一个方向。
                   3.2
                                                                              参 考 文        献
                   3.0
                      8    19   30   41    52   70   81
                                                                 [1] Akira H, Kazunori I, Nobuo S. Marginalized Viterbi algo-
                                   ໚ฉ٨ጸ஝
                                                                   rithm for hierarchical hidden Markov models[J]. Pattern
                                 (b) ឈᩲឨဋॖ־
                                                                   Recognition, 2013, 46(12): 3452–3459.
                图 4  改进的 DNN-HMM 与 DNN-HMM 模型错误                  [2] 胡政权, 曾毓敏, 宗原, 等. 说话人识别中 MFCC 参数提取的
                率比较                                                改进 [J]. 计算机工程与应用, 2014, 50(7): 217–220.
               Fig. 4  Comparison of error rates between im-       Hu Zhengquan, Zeng Yuming, Zong Yuan, et al. Improve-
               proved DNN-HMM and DNN-HMM models                   ment of MFCC parameters extraction in speaker recog-
                                                                   nition[J]. Computer Engineering and Applications, 2014,
             3.3   实验分析                                            50(7): 217–220.
                                                                 [3] 赵涛涛, 杨鸿武. 结合 EMD 和加权 Mel 倒谱的语音共振峰提
                 (1) 根据表 2 的结果可以确定,在 MFCC 声学                       取算法 [J]. 计算机工程与应用, 2015, 51(9): 207–212.
             特征下,与传统 GMM-HMM 方法、DNN-HMM 方                          Zhao Taotao, Yang Hongwu. Formant extraction algo-
                                                                   rithm of speech signal by combining EMD and WM-
             法相比较,改进的DNN-HMM声学建模方法在句错                              CEP[J]. Computer Engineering and Applications, 2015,
             误率与词错误率方面均有下降,分别为 22.37% 和                            51(9): 207–212.
             4.15%。这表明后者在声学建模方面相比 DNN 模                          [4] 侯一民, 周慧琼, 王政一. 深度学习在语音识别中的研究进展
                                                                   综述 [J]. 计算机应用研究, 2017, 34(8): 2241–2246.
             型、GMM 模型对于复杂的语音数据有着更强的建                               Hou Yimin, Zhou Huiqiong, Wang Zhengyi. Overview of
             模能力。                                                  speech recognition based on deep learning[J]. Application

                 (2) 从表 3 可以看出,滤波器组数量不断增多                          Research of Computers, 2017, 34(8): 2241–2246.
                                                                 [5] 邓侃, 欧智坚. 深层神经网络语音识别自适应方法研究 [J]. 计
             时,改进的DNN-HMM模型得到的句错误率与词错                              算机应用研究, 2016, 33(7): 1966–1970.
             误率呈现先降后增的趋势。说明适当的增加滤波器                                Deng Kan, Ou Zhijian. Adaptation method for deep neu-
                                                                   ral network-based speech recognition[J]. Application Re-
             组数量可以使识别结果更好,但是当增加到一定数
                                                                   search of Computers, 2016, 33(7): 1966–1970.
             量时结果反而会下降。论文实验中,滤波器组数量                              [6] Mohamed A R, Sainath T N, Dahl G, et al.  Deep
             为 30 时,句错误率与词错误率达到最小值,分别为                             belief networks using discriminative features for phone
                                                                   recognition[C]//IEEE International Conference on Acous-
             21.06%和3.12%。
                                                                   tics, Speech and Signal Processing. IEEE, 2011, 125(3):
                 (3) 从图 4 可以看出,改进的 DNN-HMM 声学                      5060–5063.
             模型比 DNN-HMM 声学模型在不同滤波器组数量                           [7] Tomaz R, Mirjam S M, Zdravko K. Large vocabulary con-
                                                                   tinuous speech recognition of an inflected language us-
             时句错误率与词错误率均有所下降,其中在滤波器
                                                                   ing stems and endings[J]. Speech Communication, 2007,
             组数量为默认值时,句错误率下降了 0.48%,词错                             49(6): 437–452.
   89   90   91   92   93   94   95   96   97   98   99