Page 89 - 201903
P. 89

第 38 卷 第 3 期                                                                       Vol. 38, No. 3
             2019 年 5 月                          Journal of Applied Acoustics                      May, 2019

             ⋄ 研究报告 ⋄



                    一种改进的DNN-HMM的语音识别方法                                                            ∗




                          李云红      1†  梁思程      1   贾凯莉     1   张秋铭     1   宋 鹏     1   何 琛    1

                                                  王刚毅      1   李禹萱     2


                                            (1  西安工程大学电子信息学院        西安   710048)
                                               (2  国网西安供电公司      西安   710032)

                摘要 针对深度神经网络与隐马尔可夫模型 (DNN-HMM) 结合的声学模型在语音识别过程中建模能力有
                限等问题,提出了一种改进的 DNN-HMM 模型语音识别算法。首先根据深度置信网络 (DBN) 结合深度玻
                尔兹曼机 (DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数 (MFCC) 和对数域的 Mel 滤波
                器组系数 (Fbank) 作为声学特征参数,通过 TIMIT 语音数据集进行实验。实验结果表明:结合了 DBM 的
                DNN-HMM 模型相比 DNN-HMM 模型更具优势,其中,使用 MFCC 声学特征在词错误率与句错误率方面分
                别下降了 1.26% 和 0.20%。此外,使用默认滤波器组的 Fbank 特征在词错误率与句错误率方面分别下降了
                0.48% 和 0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到
                21.06% 和 3.12% 的好成绩。
                关键词     语音识别,深度神经网络,声学模型,声学特征
                中图法分类号: TN912.34           文献标识码: A          文章编号: 1000-310X(2019)03-0371-07
                DOI: 10.11684/j.issn.1000-310X.2019.03.012


                    An improved speech recognition method based on DNN-HMM model


                        LI Yunhong 1  LIANG Sicheng 1  JIA Kaili 1  ZHANG Qiuming  1  SONG Peng  1

                                         HE Chen 1   WANG Gangyi   1  LI Yuxuan 2

                          (1  School of Electronics and Information, Xi’an Polytechnic University, Xi’an 710048, China)
                                    (2  State Grid Xi’an Power Supply Company, Xi’an 710032, China)

                 Abstract  The acoustic model combined with deep neural network and hidden Markov model (DNN-HMM)
                 has been used extensively in today’s speech recognition system. In this paper, an improved DNN-HMM model
                 speech recognition algorithm is proposed. First, a deep neural network acoustic model is built by the deep
                 belief network (DBN) and the deep Boltzmann machine (DBM). Then the Mel frequency cepstral coefficient
                 (MFCC) and the log filter coefficient of the log domain (Fbank) are extracted as an acoustic feature parameter.
                 Finally, the experiment is performed on the TIMIT speech data set. The experimental results show that the
                 DNN-HMM model combined with DBM has more advantages than DNN-HMM model, in which the MFCC
                 acoustic features can reduce the word error rate and sentence error rate by 1.26% and 0.20% respectively.
                 Moreover, using the Fbank feature default filter group rate decreases the word error rate and sentence error


             2018-09-15 收稿; 2018-12-31 定稿
             国家自然科学基金资助项目 (61471161), 陕西省科技厅自然科学基础研究重点项目 (2016JZ026), 国家级大学生创新创业项目
             ∗
             (201810709009)
             作者简介: 李云红 (1974- ), 女, 辽宁锦州人, 博士, 教授, 研究方向: 信号与信息处理。
             † 通讯作者 E-mail: hitliyunhong@163.com
   84   85   86   87   88   89   90   91   92   93   94