Page 92 - 201903
P. 92
374 2019 年 5 月
如图 2 所示, 经预处理和快速傅里叶变换 在Kaldi开发平台中,三音素模型采用A_B_C
(Fast Fourier transformation, FFT) 得到语音信号 结构形式,其中 B 为当前状态,A 和 C 为上下文。
各帧数据的频谱参数,通过一组 N 个三角带滤 训练过程如表 1 所示。首先进行单音素模型训练,
波器构成的 Mel 频率滤波器作卷积运算, 然后 并按照设置的次数对数据对齐,然后以单音素模
对输出的结果作对数运算,依次得到对数能量 型为输入训练上下文相关的三音素模型并实现数
S(m)m = 1, 2, 3, · · · , N,最后经离散余弦变换(Dis- 据对齐,接下来对特征使用线性区分分析 (Linear
crete cosine transform, DCT),得到MFCC参数,如 discriminant analysis, LDA) 和最大似然线性回归
公式(9)所示: (Maximum likelihood linear transform, MLLT) 进
M [ ] 行变换并训练加入LDA和MLLT的三音素模型,最
∑ πn(m − 0.5)
C i (n) = S(m) cos ,
M 后进行说话人自适应训练 (Speaker adaptive train-
m=1
ing, SAT) 得到 LDA+MLLT+SAT 的三音素模型,
0 6 m 6 M, (9)
整个过程逐步实现了特征参数的优化。
其中,n 代表 MFCC 声学特征的个数,C i (n) 是第 i
表 1 基础模型训练过程
帧的第 n 个 MFCC 系数,作为 log 对数能量模块的
Table 1 Basic model training process
输出,M 是Mel滤波器的个数。
Fbank 声学特征省略了 MFCC 声学特征提取
模型 解释
过程的 DCT 模块,将 log 对数能量模块的输出直接
Mono 单音素模型
作为输入语音的声学特征。在三角滤波器组模块,
Mono_ali 单音素对齐
使用 N 个三角带滤波器就可以得到 N 维相关性较
高的 Fbank 特征。而经过 DCT 计算提取的 MFCC Tri1 三音素模型
特征,将能量集中在低频部分,具有更好的判别度。 Tri1_ali 三音素对齐
因此,使用 GMM 进行语音识别时,由于 GMM Tri2b LDA+MLLT 特征的三音素模型
忽略不同特征维度的相关性,MFCC特征更加适合。 Tri2b_ali LDA+MLLT 特征的三音素对齐
而基于深度神经网络的语音识别中,深度神经网络
Tri3b LDA+MLLT+SAT 特征的三音素模型
可以更好地利用 Fbank 特征相关性较高的特点,降
Tri3b_ali LDA+MLLT+SAT 特征的三音素对齐
低语音识别的词错误率。另外,Fbank 声学特征相
比MFCC声学特征,减小了声学特征提取时的计算 最后对识别结果进行强制性对齐,获得聚类后
量,容易进行带宽调节,得到最佳带宽的识别结果, 每个三音素的状态号来作为深度神经网络训练调
从而进一步提高语音识别的正确率。 谐时候的标签信息,并以此作为训练 DNN 模型和
改进的DNN模型的基础模型。
3 实验过程与结果分析
3.1.2 深度神经网络声学模型的建立
3.1 实验过程 (1)监督信息的生成
3.1.1 GMM-HMM声学模型的建立 因为 RBM 模型训练不适用不同长度的语音音
(1)特征提取 素,论文通过强制对齐 GMM-HMM 基线系统识别
实现帧长 25 ms、帧移 10 ms、特征维度 39 维 结果,得到各聚类三音素状态,即模型 DNN 和改进
(12 维输出、1 维对数能量及两者一阶、二阶差分) 的 模型DNN网络调参过程中所需标签信息。
MFCC 特征的提取,然后进行倒谱均值方差归一化 (2)特征提取过程
的处理。 在进行深度神经网络模型训练时,使用基于
(2)训练GMM-HMM模型 MFCC 与 Fbank 两种不同的声学特征完成训练与
在模型训练过程中考虑将上下文相关的三音 解码,同时变更 Fbank 特征下滤波器组数量,观察
素融入声学模型,并以此作为声学基元进行模型训 不同滤波器组数量的 Fbank 特征对 DNN 和改进模
练,最后将训练后的模型输出特征进行解码。 型DNN网络识别结果的影响。