Page 143 - 《应用声学》2023年第2期
P. 143
第 42 卷 第 2 期 拉巴顿珠等: 端到端的藏语语音合成方法 331
图 12 藏语语音合成 MOS 评测软件
Fig. 12 Tibetan TTS MOS evaluation software
3.3.4 评测结果 成模型。
本实验从 100 个测试集中随机选取了 30 个藏
4 结论与展望
语句子作为评估该合成模型的数据集,进行主观
MOS,MOS打分结果如表1所示。
本文重点讨论了目前在业界主流的端到端语
表 1 MOS 评分结果 音合成方法应用到藏语卫藏方言语音合成任务中
Table 1 MOS evaluations results 的可行性。通过实验证明,基于端到端的语音合成
模型在藏语语音合成中是有效的,且在同样多的语
评测员 Tacotron-2 Merlin
料条件下,与其他模型进行对比,基于端到端的合成
评测者 1 4.8 4.5
模型最优、取得频谱参数的良好对齐以及损失很小
评测者 2 4.7 4.3 的匹配,使得最终合成的声音更接近自然人的声音。
评测者 3 4.7 4.4 另外值得一提的是,基于端到端的语音合成方法大
评测者 4 4.6 4.1 大减少了人工干预,取得了更佳的合成效果。但同
评测者 5 4.8 4.5 时也发现一些不足之处,一是由于模型使用了递归
评测者 6 4.5 4.1 神经网络,这样可能会梯度消失或者爆炸,而且由于
评测者 7 4.6 4.2 自回归性质而限制了模型的训练和推理速度;二是
评测者 8 4.8 4.3 可能训练语料少且不规范等原因,导致迭代模型不
评测者 9 4.6 4.1 稳定等问题。
平均分 4.68 4.28 基于深度学习的模型一般都依赖于训练数据
的大小以及数据集的质量。因此,本文下一步将收
打分结果显示,两个系统之间打分结果存在
集一定规模的藏语语音及对应的文本数据,尽可能
明显的差距,基于 Tacotron2 模型合成的效果优于
地继续采集具有专业录音级别的语音语料。另外,
Merlin模型合成的效果,分析其评测标准,无论是从
下一步实验中考虑增加一些语言特征等作为辅助
语音的音色、自然度和可懂度,基于 “端到端合成”
训练,将探索对模型性能的优化。
的MOS 结果 (4.68 分) 大于 “参数合成” 的评分结果
(4.28分)。
从Tacotron2模型的语音合成主观评测结果来 参 考 文 献
看,合成语音的自然度取得了很大的提升,非常接近
真人的发音,这充分证明了基于端到端的合成方法 [1] 王莉. 藏语智能语音云平台在拉萨首发 [N]. 西藏日报 (汉),
2016-11-04.
不仅能够成功应用在藏语语音合成任务中,而且合
[2] 周雁, 赵栋材. 基于 HMM 模型的藏语语音合成研究 [J]. 计
成的语音效果优于基于传统的 “统计参数” 语音合 算机应用与软件, 2015, 32(5): 171–174.