Page 143 - 《应用声学》2023年第2期
P. 143

第 42 卷 第 2 期                  拉巴顿珠等: 端到端的藏语语音合成方法                                           331




















                                               图 12  藏语语音合成 MOS 评测软件
                                         Fig. 12 Tibetan TTS MOS evaluation software


             3.3.4 评测结果                                        成模型。
                 本实验从 100 个测试集中随机选取了 30 个藏
                                                               4 结论与展望
             语句子作为评估该合成模型的数据集,进行主观
             MOS,MOS打分结果如表1所示。
                                                                   本文重点讨论了目前在业界主流的端到端语
                          表 1   MOS 评分结果                       音合成方法应用到藏语卫藏方言语音合成任务中
                    Table 1 MOS evaluations results            的可行性。通过实验证明,基于端到端的语音合成
                                                               模型在藏语语音合成中是有效的,且在同样多的语
                     评测员        Tacotron-2    Merlin
                                                               料条件下,与其他模型进行对比,基于端到端的合成
                     评测者 1         4.8         4.5
                                                               模型最优、取得频谱参数的良好对齐以及损失很小
                     评测者 2         4.7         4.3             的匹配,使得最终合成的声音更接近自然人的声音。
                     评测者 3         4.7         4.4             另外值得一提的是,基于端到端的语音合成方法大
                     评测者 4         4.6         4.1             大减少了人工干预,取得了更佳的合成效果。但同
                     评测者 5         4.8         4.5             时也发现一些不足之处,一是由于模型使用了递归
                     评测者 6         4.5         4.1             神经网络,这样可能会梯度消失或者爆炸,而且由于
                     评测者 7         4.6         4.2             自回归性质而限制了模型的训练和推理速度;二是
                     评测者 8         4.8         4.3             可能训练语料少且不规范等原因,导致迭代模型不

                     评测者 9         4.6         4.1             稳定等问题。
                     平均分           4.68        4.28                基于深度学习的模型一般都依赖于训练数据
                                                               的大小以及数据集的质量。因此,本文下一步将收
                 打分结果显示,两个系统之间打分结果存在
                                                               集一定规模的藏语语音及对应的文本数据,尽可能
             明显的差距,基于 Tacotron2 模型合成的效果优于
                                                               地继续采集具有专业录音级别的语音语料。另外,
             Merlin模型合成的效果,分析其评测标准,无论是从
                                                               下一步实验中考虑增加一些语言特征等作为辅助
             语音的音色、自然度和可懂度,基于 “端到端合成”
                                                               训练,将探索对模型性能的优化。
             的MOS 结果 (4.68 分) 大于 “参数合成” 的评分结果
             (4.28分)。
                 从Tacotron2模型的语音合成主观评测结果来                                     参 考 文        献
             看,合成语音的自然度取得了很大的提升,非常接近
             真人的发音,这充分证明了基于端到端的合成方法                              [1] 王莉. 藏语智能语音云平台在拉萨首发 [N]. 西藏日报 (汉),
                                                                   2016-11-04.
             不仅能够成功应用在藏语语音合成任务中,而且合
                                                                 [2] 周雁, 赵栋材. 基于 HMM 模型的藏语语音合成研究 [J]. 计
             成的语音效果优于基于传统的 “统计参数” 语音合                              算机应用与软件, 2015, 32(5): 171–174.
   138   139   140   141   142   143   144   145   146   147   148