Page 94 - 201903
P. 94
376 2019 年 5 月
23.5 误率下降了 0.82%。说明了在相同条件下,改进的
ஈᤉᄊDMN-HMM
23.0 DNN-HMM 模型相比 DNN-HMM 模型有更强的建
DMN-HMM 模能力。
Բᩲឨဋ/% 22.0
22.5
21.5 4 结论
21.0 论文建立了改进的 DNN-HMM 声学模型,使
20.5 用 TIMIT 语音数据集,通过语音识别评价指标句
8 19 30 41 52 70 81
ฉ٨ጸ 错误率和词错误率分析了不同 Fbank 特征滤波组
(a) Բᩲឨဋॖ־
对改进的 DNN-HMM 声学模型的影响,并与 DNN-
4.4 HMM 在相同实验条件下进行了比较,证明了改进
4.2 ஈᤉᄊDMN-HMM 的 DNN-HMM 声学模型和 Fbank 参数拥有更强建
DMN-HMM
4.0 模能力。论文在改进 DNN-HMM 模型实验过程中,
ឈᩲឨဋ/% 3.8 发现模型前两层的 DBM无向图模型可以有效去除
3.6
3.4 噪音,而这也为论文后续的研究指明了一个方向。
3.2
参 考 文 献
3.0
8 19 30 41 52 70 81
[1] Akira H, Kazunori I, Nobuo S. Marginalized Viterbi algo-
ฉ٨ጸ
rithm for hierarchical hidden Markov models[J]. Pattern
(b) ឈᩲឨဋॖ־
Recognition, 2013, 46(12): 3452–3459.
图 4 改进的 DNN-HMM 与 DNN-HMM 模型错误 [2] 胡政权, 曾毓敏, 宗原, 等. 说话人识别中 MFCC 参数提取的
率比较 改进 [J]. 计算机工程与应用, 2014, 50(7): 217–220.
Fig. 4 Comparison of error rates between im- Hu Zhengquan, Zeng Yuming, Zong Yuan, et al. Improve-
proved DNN-HMM and DNN-HMM models ment of MFCC parameters extraction in speaker recog-
nition[J]. Computer Engineering and Applications, 2014,
3.3 实验分析 50(7): 217–220.
[3] 赵涛涛, 杨鸿武. 结合 EMD 和加权 Mel 倒谱的语音共振峰提
(1) 根据表 2 的结果可以确定,在 MFCC 声学 取算法 [J]. 计算机工程与应用, 2015, 51(9): 207–212.
特征下,与传统 GMM-HMM 方法、DNN-HMM 方 Zhao Taotao, Yang Hongwu. Formant extraction algo-
rithm of speech signal by combining EMD and WM-
法相比较,改进的DNN-HMM声学建模方法在句错 CEP[J]. Computer Engineering and Applications, 2015,
误率与词错误率方面均有下降,分别为 22.37% 和 51(9): 207–212.
4.15%。这表明后者在声学建模方面相比 DNN 模 [4] 侯一民, 周慧琼, 王政一. 深度学习在语音识别中的研究进展
综述 [J]. 计算机应用研究, 2017, 34(8): 2241–2246.
型、GMM 模型对于复杂的语音数据有着更强的建 Hou Yimin, Zhou Huiqiong, Wang Zhengyi. Overview of
模能力。 speech recognition based on deep learning[J]. Application
(2) 从表 3 可以看出,滤波器组数量不断增多 Research of Computers, 2017, 34(8): 2241–2246.
[5] 邓侃, 欧智坚. 深层神经网络语音识别自适应方法研究 [J]. 计
时,改进的DNN-HMM模型得到的句错误率与词错 算机应用研究, 2016, 33(7): 1966–1970.
误率呈现先降后增的趋势。说明适当的增加滤波器 Deng Kan, Ou Zhijian. Adaptation method for deep neu-
ral network-based speech recognition[J]. Application Re-
组数量可以使识别结果更好,但是当增加到一定数
search of Computers, 2016, 33(7): 1966–1970.
量时结果反而会下降。论文实验中,滤波器组数量 [6] Mohamed A R, Sainath T N, Dahl G, et al. Deep
为 30 时,句错误率与词错误率达到最小值,分别为 belief networks using discriminative features for phone
recognition[C]//IEEE International Conference on Acous-
21.06%和3.12%。
tics, Speech and Signal Processing. IEEE, 2011, 125(3):
(3) 从图 4 可以看出,改进的 DNN-HMM 声学 5060–5063.
模型比 DNN-HMM 声学模型在不同滤波器组数量 [7] Tomaz R, Mirjam S M, Zdravko K. Large vocabulary con-
tinuous speech recognition of an inflected language us-
时句错误率与词错误率均有所下降,其中在滤波器
ing stems and endings[J]. Speech Communication, 2007,
组数量为默认值时,句错误率下降了 0.48%,词错 49(6): 437–452.