Page 90 - 201903
P. 90
372 2019 年 5 月
rate by 0.48% and 0.82% respectively, and an appropriate increase in the filter bank group can reduce the error
rate. In brief, the sentence error rate and the word error rate are reduced to 21.06% and 3.12% respectively.
Key words Speech recognition, Deep neural network, Acoustic model, Acoustic feature
方面进行深入研究,使得深度学习理论在语音识别
0 引言 领域再次有了进一步的发展。张劲松等 [11] 比较了
几种不同特征对识别率的影响,使用 Mel 滤波器组
声学模型作为语音识别系统的主要模型之一,
系数 (Mel-scale filter bank, Fbank) 作为声学特征,
利用一系列声学特征完成建模训练,能够明确各声
具有更好的识别率。Kovacs等 [12] 更是在 Fbank 特
学基元相关发音模式。目前广泛应用的声学建模研
征基础上利用自回归的方法来调整模型的鲁棒性,
究主要围绕高斯混合模型隐马尔可夫模型 (Gaus-
取得了较好的识别结果。
sian mixture model- hidden Markov model, GMM-
理论方面,经过多年研究发展,深度学习理论
HMM) [1] 展开。胡政权等 [2] 提出了梅尔频率倒谱系
与语音识别技术的结合 [13−14] 已然达到较为成熟
数 (Mel-frequency cepstral coefficients, MFCC) 参
的阶段;应用方面,从最初的人工神经网络 (Artifi-
数提取的改进方法。赵涛涛等 [3] 提出了经验模态
cial neural network, ANN) 到现在的深层神经网络
分解和加权 Mel 倒谱的语音共振峰提取算法。但
(Deep neural network, DNN),可以说神经网络已经
是,随着深度学习在词识别率方面取得跨越性突破
达到实际应用阶段 [15] 。Salakhutdinov等 [16] 提出的
后,应用它建立声学模型成为了研究人员关注的焦
深度玻尔兹曼机(Deep Boltzmann machine, DBM)
点 [4−8] 。
以RBM 为基础,模型中单元各层均为无向连接,使
2000 年,深度学习领域的专家 Hinton 等 [9] 提
模型处理不确定样本的健壮性更强。基于此,论文
出了限制玻尔兹曼机 (Restricted Boltzmann ma-
结合DBM,在Kaldi平台上建立改进的DNN-HMM
chine, RBM),这种模型结构是可见层节点与隐藏
语音识别模型 [17] ,经语音识别库 TIMIT 的测试实
层节点全部连接,相同层节点之间互相独立。2006
验,取得了较好的语音识别结果。
年,Hinton等提出了基于层叠的 RBM算法,即深度
置信网络 (Deep belief networks, DBN),表明了深
1 改进的DNN-HMM声学模型
层神经网络模型在特征提取以及模型表达方面具
有优异的表现。Mohamed 等 [10] 首次使用 DBN 来 DNN-HMM声学模型是由DBN模型组成的深
取代传统的 GMM 来为 HMM状态输出特征分布建 度神经网络,DBN 模型隐藏层采用 RBM 组成的有
模,并成功搭建DBN-HMM声学模型应用于一个单 向图模型。而改进的 DNN-HMM声学模型由 DBM
音素识别系统,通过实验表明在词错误率方面下降 模型和DBN模型混合而成。模型结构对比如图1所
到了20.3%。最近几年,国内外专家学者在声学特征 示。DBM 模型是由两层 RBM 组成的无向图模型,
ᣥѣࡏ ᣥѣࡏ
W 5 W 5
h
h
W 4 W 4
h
h
W 3 W 3
h
h
W 2 W 2
h
h
W 1 W 1
ᣥКࡏ ᣥКࡏ
(a) DNN-HMMവی (b) ஈᤉᄊDNN-HMMവی
图 1 模型结构
Fig. 1 Model structure