Page 142 - 《应用声学》2023年第2期
P. 142
330 2023 年 3 月
字母转音素结果为“nga ni bod ljongs slob chen gyi 1分—— 很差,打分精度为0.5分。
dge rgan dkyil ma zhig yin”(第一句) 和 “dgun dus
3.3.2 评测对象
gung gseng bzhag na slob ma rnams rang khyim
本文的主要研究对象是藏语卫藏方言的语音
du logvgro gi red”(第二句),在 165000 次迭代输出
合成,因此,本文最终评测人员是熟练掌握卫藏
的模型上进行测试,输出的图 10 和图 11 分别为两
方言的拉萨常驻人员。评测人员的具体构成为:
个测试句子的对齐效果和 Mel 谱图。可以看出,在
拉萨本地、山南和日喀则 3 个地方的各 3 名共 9 人
该阶段输出的模型上合成的语音效果良好,均能够
组成,其中 9 名评测人员涵盖了大学生 (含播音专
达到预期效果。另外说明的是,本次训练总共迭代
业的学生)、大学专业教师、普通教师和社会上的
20 × 10 次,但迭代次数越多并不一定最终合成的
4
普通人。
效果越好,例如在迭代次数越高的时候同样出现一
些完全未对齐的情况。 3.3.3 评测系统的产生
3.3 主观评价 为了避免影响打分结果的外在因素,以及更好
3.3.1 MOS评价标准 地对比与传统语音合成模型之间的效果,该评测
平均意见得分 (Mean opinion score, MOS) 标 软件中共涉及到两个不同的合成系统,分别是基于
准是一种对语音质量评测的数字方法。通常来讲, Merlin(参数式) 合成模型和 Tacotron2 合成模型的
语音质量的评测主要包括 3 个方面的内容:清晰 声音,两个系统的评测内容是完全相同。另外,为了
度、可懂度和自然度,对整个文本的语音韵律、音 更准确并避免评测人员集中注意在同一个系统合
质、音色、语音是否听懂和理解等方面进行数字 成的语音而影响两个系统打分结果的对比,在评测
打分。其中,本文自然度评测按五分制给出,最低 软件中两个不同系统的内容是随机产生,且没有指
为 1 分、最高为 5 分。其具体表示为:5 分 ——非常 定两个系统的先后顺序。藏语语音合成评测软件如
好,4 分 ——较好,3 分 ——可接受,2 分 ——较差, 图12所示。
70
0.8 0.8
50 60 0.6
Encoder timestep 30 0.6 Encoder timestep 40 0.4
50
40
0.4
30
20
0.2 20 0.2
10
10
0 0
0 50 100 150 200 0 50 100 150 200 250
Decoder timstep Decoder timstep
(a) ኄʷԲ (b) ኄ̄Բ
图 10 测试句子的 alignment 效果图
Fig. 10 Attention alignments on a test sentence
0 0
200 200
400 400
600 600
800 800
1000 1000
0 50 100 150 200 0 50 100 150 200 250
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4
(a) ኄʷԲ (b) ኄ̄Բ
图 11 测试句子的语谱图
Fig. 11 Mel-Spectrogram of test sentences