Page 90 - 201903
P. 90

372                                                                                  2019 年 5 月


                 rate by 0.48% and 0.82% respectively, and an appropriate increase in the filter bank group can reduce the error
                 rate. In brief, the sentence error rate and the word error rate are reduced to 21.06% and 3.12% respectively.
                 Key words Speech recognition, Deep neural network, Acoustic model, Acoustic feature

                                                               方面进行深入研究,使得深度学习理论在语音识别
             0 引言                                              领域再次有了进一步的发展。张劲松等                    [11]  比较了

                                                               几种不同特征对识别率的影响,使用 Mel 滤波器组
                 声学模型作为语音识别系统的主要模型之一,
                                                               系数 (Mel-scale filter bank, Fbank) 作为声学特征,
             利用一系列声学特征完成建模训练,能够明确各声
                                                               具有更好的识别率。Kovacs等            [12]  更是在 Fbank 特
             学基元相关发音模式。目前广泛应用的声学建模研
                                                               征基础上利用自回归的方法来调整模型的鲁棒性,
             究主要围绕高斯混合模型隐马尔可夫模型 (Gaus-
                                                               取得了较好的识别结果。
             sian mixture model- hidden Markov model, GMM-
                                                                   理论方面,经过多年研究发展,深度学习理论
             HMM)  [1]  展开。胡政权等    [2]  提出了梅尔频率倒谱系
                                                               与语音识别技术的结合            [13−14]  已然达到较为成熟
             数 (Mel-frequency cepstral coefficients, MFCC) 参
                                                               的阶段;应用方面,从最初的人工神经网络 (Artifi-
             数提取的改进方法。赵涛涛等               [3]  提出了经验模态
                                                               cial neural network, ANN) 到现在的深层神经网络
             分解和加权 Mel 倒谱的语音共振峰提取算法。但
                                                               (Deep neural network, DNN),可以说神经网络已经
             是,随着深度学习在词识别率方面取得跨越性突破
                                                               达到实际应用阶段         [15] 。Salakhutdinov等 [16]  提出的
             后,应用它建立声学模型成为了研究人员关注的焦
                                                               深度玻尔兹曼机(Deep Boltzmann machine, DBM)
             点  [4−8] 。
                                                               以RBM 为基础,模型中单元各层均为无向连接,使
                 2000 年,深度学习领域的专家 Hinton 等            [9]  提
                                                               模型处理不确定样本的健壮性更强。基于此,论文
             出了限制玻尔兹曼机 (Restricted Boltzmann ma-
                                                               结合DBM,在Kaldi平台上建立改进的DNN-HMM
             chine, RBM),这种模型结构是可见层节点与隐藏
                                                               语音识别模型       [17] ,经语音识别库 TIMIT 的测试实
             层节点全部连接,相同层节点之间互相独立。2006
                                                               验,取得了较好的语音识别结果。
             年,Hinton等提出了基于层叠的 RBM算法,即深度
             置信网络 (Deep belief networks, DBN),表明了深
                                                               1 改进的DNN-HMM声学模型
             层神经网络模型在特征提取以及模型表达方面具
             有优异的表现。Mohamed 等          [10]  首次使用 DBN 来            DNN-HMM声学模型是由DBN模型组成的深
             取代传统的 GMM 来为 HMM状态输出特征分布建                         度神经网络,DBN 模型隐藏层采用 RBM 组成的有
             模,并成功搭建DBN-HMM声学模型应用于一个单                          向图模型。而改进的 DNN-HMM声学模型由 DBM
             音素识别系统,通过实验表明在词错误率方面下降                            模型和DBN模型混合而成。模型结构对比如图1所
             到了20.3%。最近几年,国内外专家学者在声学特征                         示。DBM 模型是由两层 RBM 组成的无向图模型,

                                                     ᣥѣࡏ                                      ᣥѣࡏ
                      W 5                                     W 5
                                                       h 
                                                                                                h 
                      W 4                                     W 4
                                                       h 
                                                                                                h 
                      W 3                                     W 3
                                                       h 
                                                                                                h 
                      W 2                                     W 2
                                                       h 
                                                                                                 h 
                       W 1                                     W 1
                                                       ᣥКࡏ                                     ᣥКࡏ

                                (a) DNN-HMMവی                                          (b) ஈᤉᄊDNN-HMMവی
                                                      图 1  模型结构
                                                   Fig. 1 Model structure
   85   86   87   88   89   90   91   92   93   94   95