Page 93 - 201903
P. 93

第 38 卷 第 3 期              李云红等: 一种改进的 DNN-HMM 的语音识别方法                                       375


                 (3)网络参数设定                                     进一步实验分析,比较滤波器组数目对实验结果的
                 整个深度神经网络模型包含 1 个输入层、4 个                       影响。
             隐藏层和 1 个输出层,网络输入选择超长帧 (连续                             一个音素的发音时间一般在 9 帧左右,拼接特
             11 帧组成),隐藏层共有 1024 个节点,输出层共有                      征的选择在 9 帧以上。实验中,拼接特征选择 11帧,
             1366 个节点,各节点关联各种音素标签,输出层用                         左右各5帧。根据Fbank特征滤波器组数目的不同,
             Softmax网络作分类。                                     输入层节点个数分别设置为 88、209、330、451、572、
                 另外,由于深度神经网络模型参数调谐过程中                          770、891。经训练误差的比较后,4 个隐藏层节点
             需要根据开发集和测试集识别率的对比控制迭代                             个数选择 1024。输出层1366 个节点,关联各种音素
             次数。故在训练集中选取 3000 条语句作为开发集,                        标签。
             选择1000条语句构成测试集。                                       MFCC 特征下 GMM-HMM、DNN-HMM 和改
                 (4)网络训练                                       进的 DNN-HMM 声学模型的句错误率与词错误率
                 首先初始化参数,设置 RBM 模型迭代 20 次。                     如表 2 所示。改进的 DNN-HMM 声学模型在不同
             设置最小交叉熵为目标函数,借此调整参数。通过                            Fbank 特征下的句错误率和词错误率如表 3 所示,
             开发集与测试集测试得到识别准确率与迭代次数                             与DNN-HMM的识别率比较如图4所示。
             关系如图3所示。
                                                                     表 2   MFCC 特征下声学模型的识别率
                   100
                                                                  Table 2    Recognition rate of acoustic
                    80
                                                                  model under MFCC characteristics
                  юᆸဋ/%  60             ᝫጷ                             声学模型           句错误率 SER    词错误率 WER

                                        ฾ត
                    40
                                                                      GMM-HMM           28.48%       6.13%
                    20
                                                                   DNN-HMM(MFCC)        23.63%       4.35%
                     0
                      1  2  3  4  5  6  7  8  9  10  11  12
                                                                改进的 DNN-HMM(MFCC)       22.37%       415%
                                   ᤖ̽൓஝
                      图 3  预测准确率与迭代次数变化
                                                                  表 3   改进的 DNN-HMM 在不同 Fbank 特征
              Fig. 3 Prediction accuracy and number of iterations  下的识别率

                 (5)深度神经网络声学模型                                    Table 3   Recognition rate of improved
                                                                  DNN-HMM under different Fbank fea-
                 结合深度神经网络输出层节点的输出值计
                                                                  tures
             算状态输出的后验证概率,调用 Kaldi 中的 nnet-
             forward工具进行解码识别。                                        声学模型          句错误率 SER     词错误率 WER
             3.2 实验结果                                             改进的 DNN-HMM        21.35%        3.38%
                                                                   (8Filter-bank)
                 根据上述步骤在 Kaldi语音识别系统开发平台                          改进的 DNN-HMM
                                                                                     21.26%        3.23%
             上训练单音素模型,并在此模型上优化训练三音                                 (19Filter-bank)
             素模型作为深度神经网络训练的基础模型。以训                                改进的 DNN-HMM        21.06%        3.12%
                                                                   (30Filter-bank)
             练好的三音素基础模型对分别使用 MFCC 特征和                             改进的 DNN-HMM
             Fbank特征的模型进行训练解码。                                     (41Filter-bank)   21.14%        3.17%
                 整个实验中分别使用了滤波器组数目为 8、19、                          改进的 DNN-HMM        21.32%        3.32%
                                                                   (52Filter-bank)
             30、41、52、70、81 的 Fbank 特征对 DNN-HMM 模
                                                                  改进的 DNN-HMM
             型和改进的DNN-HMM进行建模,Fbank特征滤波                            (70Filter-bank)   21.64%        3.61%
             器组数初始值设为 8,实验中首先对 8 组滤波器的                            改进的 DNN-HMM        22.14%        4.02%
                                                                   (81Filter-bank)
             Fbank 特征进行训练解码,然后修改滤波器组数目
   88   89   90   91   92   93   94   95   96   97   98