Page 92 - 201903
P. 92

374                                                                                  2019 年 5 月


                 如图 2 所示, 经预处理和快速傅里叶变换                             在Kaldi开发平台中,三音素模型采用A_B_C
             (Fast Fourier transformation, FFT) 得到语音信号         结构形式,其中 B 为当前状态,A 和 C 为上下文。
             各帧数据的频谱参数,通过一组 N 个三角带滤                            训练过程如表 1 所示。首先进行单音素模型训练,
             波器构成的 Mel 频率滤波器作卷积运算, 然后                          并按照设置的次数对数据对齐,然后以单音素模
             对输出的结果作对数运算,依次得到对数能量                              型为输入训练上下文相关的三音素模型并实现数
             S(m)m = 1, 2, 3, · · · , N,最后经离散余弦变换(Dis-         据对齐,接下来对特征使用线性区分分析 (Linear
             crete cosine transform, DCT),得到MFCC参数,如           discriminant analysis, LDA) 和最大似然线性回归
             公式(9)所示:                                          (Maximum likelihood linear transform, MLLT) 进
                           M          [            ]           行变换并训练加入LDA和MLLT的三音素模型,最
                          ∑             πn(m − 0.5)
                  C i (n) =   S(m) cos               ,
                                            M                  后进行说话人自适应训练 (Speaker adaptive train-
                          m=1
                                                               ing, SAT) 得到 LDA+MLLT+SAT 的三音素模型,
                          0 6 m 6 M,                    (9)
                                                               整个过程逐步实现了特征参数的优化。
             其中,n 代表 MFCC 声学特征的个数,C i (n) 是第 i
                                                                            表 1  基础模型训练过程
             帧的第 n 个 MFCC 系数,作为 log 对数能量模块的
                                                                    Table 1 Basic model training process
             输出,M 是Mel滤波器的个数。
                 Fbank 声学特征省略了 MFCC 声学特征提取
                                                                      模型                 解释
             过程的 DCT 模块,将 log 对数能量模块的输出直接
                                                                    Mono               单音素模型
             作为输入语音的声学特征。在三角滤波器组模块,
                                                                    Mono_ali           单音素对齐
             使用 N 个三角带滤波器就可以得到 N 维相关性较
             高的 Fbank 特征。而经过 DCT 计算提取的 MFCC                         Tri1               三音素模型
             特征,将能量集中在低频部分,具有更好的判别度。                                Tri1_ali           三音素对齐
                 因此,使用 GMM 进行语音识别时,由于 GMM                           Tri2b      LDA+MLLT 特征的三音素模型
             忽略不同特征维度的相关性,MFCC特征更加适合。                               Tri2b_ali  LDA+MLLT 特征的三音素对齐
             而基于深度神经网络的语音识别中,深度神经网络
                                                                    Tri3b    LDA+MLLT+SAT 特征的三音素模型
             可以更好地利用 Fbank 特征相关性较高的特点,降
                                                                    Tri3b_ali  LDA+MLLT+SAT 特征的三音素对齐
             低语音识别的词错误率。另外,Fbank 声学特征相
             比MFCC声学特征,减小了声学特征提取时的计算                               最后对识别结果进行强制性对齐,获得聚类后
             量,容易进行带宽调节,得到最佳带宽的识别结果,                           每个三音素的状态号来作为深度神经网络训练调
             从而进一步提高语音识别的正确率。                                  谐时候的标签信息,并以此作为训练 DNN 模型和
                                                               改进的DNN模型的基础模型。
             3   实验过程与结果分析
                                                               3.1.2 深度神经网络声学模型的建立
             3.1 实验过程                                              (1)监督信息的生成

             3.1.1 GMM-HMM声学模型的建立                                  因为 RBM 模型训练不适用不同长度的语音音
                 (1)特征提取                                       素,论文通过强制对齐 GMM-HMM 基线系统识别
                 实现帧长 25 ms、帧移 10 ms、特征维度 39 维                 结果,得到各聚类三音素状态,即模型 DNN 和改进
             (12 维输出、1 维对数能量及两者一阶、二阶差分) 的                      模型DNN网络调参过程中所需标签信息。
             MFCC 特征的提取,然后进行倒谱均值方差归一化                              (2)特征提取过程
             的处理。                                                  在进行深度神经网络模型训练时,使用基于
                 (2)训练GMM-HMM模型                                MFCC 与 Fbank 两种不同的声学特征完成训练与
                 在模型训练过程中考虑将上下文相关的三音                           解码,同时变更 Fbank 特征下滤波器组数量,观察
             素融入声学模型,并以此作为声学基元进行模型训                            不同滤波器组数量的 Fbank 特征对 DNN 和改进模
             练,最后将训练后的模型输出特征进行解码。                              型DNN网络识别结果的影响。
   87   88   89   90   91   92   93   94   95   96   97