Page 142 - 《应用声学》2023年第2期

P. 142

330 2023 年 3 月

字母转音素结果为“nga ni bod ljongs slob chen gyi 1分—— 很差，打分精度为0.5分。
dge rgan dkyil ma zhig yin”(第一句) 和 “dgun dus
3.3.2 评测对象
gung gseng bzhag na slob ma rnams rang khyim
本文的主要研究对象是藏语卫藏方言的语音
du logvgro gi red”(第二句)，在 165000 次迭代输出
合成，因此，本文最终评测人员是熟练掌握卫藏
的模型上进行测试，输出的图 10 和图 11 分别为两
方言的拉萨常驻人员。评测人员的具体构成为：
个测试句子的对齐效果和 Mel 谱图。可以看出，在
拉萨本地、山南和日喀则 3 个地方的各 3 名共 9 人
该阶段输出的模型上合成的语音效果良好，均能够
组成，其中 9 名评测人员涵盖了大学生 (含播音专
达到预期效果。另外说明的是，本次训练总共迭代
业的学生)、大学专业教师、普通教师和社会上的
20 × 10 次，但迭代次数越多并不一定最终合成的
4
普通人。
效果越好，例如在迭代次数越高的时候同样出现一
些完全未对齐的情况。 3.3.3 评测系统的产生
3.3 主观评价为了避免影响打分结果的外在因素，以及更好
3.3.1 MOS评价标准地对比与传统语音合成模型之间的效果，该评测

平均意见得分 (Mean opinion score, MOS) 标软件中共涉及到两个不同的合成系统，分别是基于
准是一种对语音质量评测的数字方法。通常来讲， Merlin(参数式) 合成模型和 Tacotron2 合成模型的
语音质量的评测主要包括 3 个方面的内容：清晰声音，两个系统的评测内容是完全相同。另外，为了
度、可懂度和自然度，对整个文本的语音韵律、音更准确并避免评测人员集中注意在同一个系统合
质、音色、语音是否听懂和理解等方面进行数字成的语音而影响两个系统打分结果的对比，在评测
打分。其中，本文自然度评测按五分制给出，最低软件中两个不同系统的内容是随机产生，且没有指
为 1 分、最高为 5 分。其具体表示为：5 分 ——非常定两个系统的先后顺序。藏语语音合成评测软件如
好，4 分 ——较好，3 分 ——可接受，2 分 ——较差，图12所示。

70
0.8 0.8
50 60 0.6
Encoder timestep 30 0.6 Encoder timestep 40 0.4
50
40
0.4
30
20
0.2 20 0.2
10
10
0 0
0 50 100 150 200 0 50 100 150 200 250
Decoder timstep Decoder timstep
(a) ኄʷԲ (b) ኄ̄Բ
图 10 测试句子的 alignment 效果图
Fig. 10 Attention alignments on a test sentence
0 0
200 200
400 400
600 600
800 800
1000 1000
0 50 100 150 200 0 50 100 150 200 250
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
(a) ኄʷԲ (b) ኄ̄Բ
图 11 测试句子的语谱图
Fig. 11 Mel-Spectrogram of test sentences

137 138 139 140 141 142 143 144 145 146 147