Page 142 - 《应用声学》2023年第2期
P. 142

330                                                                                  2023 年 3 月


             字母转音素结果为“nga ni bod ljongs slob chen gyi          1分—— 很差,打分精度为0.5分。
             dge rgan dkyil ma zhig yin”(第一句) 和 “dgun dus
                                                               3.3.2 评测对象
             gung gseng bzhag na slob ma rnams rang khyim
                                                                   本文的主要研究对象是藏语卫藏方言的语音
             du logvgro gi red”(第二句),在 165000 次迭代输出
                                                               合成,因此,本文最终评测人员是熟练掌握卫藏
             的模型上进行测试,输出的图 10 和图 11 分别为两
                                                               方言的拉萨常驻人员。评测人员的具体构成为:
             个测试句子的对齐效果和 Mel 谱图。可以看出,在
                                                               拉萨本地、山南和日喀则 3 个地方的各 3 名共 9 人
             该阶段输出的模型上合成的语音效果良好,均能够
                                                               组成,其中 9 名评测人员涵盖了大学生 (含播音专
             达到预期效果。另外说明的是,本次训练总共迭代
                                                               业的学生)、大学专业教师、普通教师和社会上的
             20 × 10 次,但迭代次数越多并不一定最终合成的
                   4
                                                               普通人。
             效果越好,例如在迭代次数越高的时候同样出现一
             些完全未对齐的情况。                                        3.3.3 评测系统的产生
             3.3 主观评价                                              为了避免影响打分结果的外在因素,以及更好
             3.3.1 MOS评价标准                                     地对比与传统语音合成模型之间的效果,该评测

                 平均意见得分 (Mean opinion score, MOS) 标            软件中共涉及到两个不同的合成系统,分别是基于
             准是一种对语音质量评测的数字方法。通常来讲,                            Merlin(参数式) 合成模型和 Tacotron2 合成模型的
             语音质量的评测主要包括 3 个方面的内容:清晰                           声音,两个系统的评测内容是完全相同。另外,为了
             度、可懂度和自然度,对整个文本的语音韵律、音                            更准确并避免评测人员集中注意在同一个系统合
             质、音色、语音是否听懂和理解等方面进行数字                             成的语音而影响两个系统打分结果的对比,在评测
             打分。其中,本文自然度评测按五分制给出,最低                            软件中两个不同系统的内容是随机产生,且没有指
             为 1 分、最高为 5 分。其具体表示为:5 分 ——非常                     定两个系统的先后顺序。藏语语音合成评测软件如
             好,4 分 ——较好,3 分 ——可接受,2 分 ——较差,                    图12所示。


                                                                  70
                                                        0.8                                          0.8
                     50                                           60                                 0.6
                    Encoder timestep  30                0.6      Encoder timestep  40                0.4
                                                                  50
                     40
                                                        0.4
                                                                  30
                     20
                                                        0.2       20                                 0.2
                     10
                                                                  10
                      0                                            0
                       0     50   100   150   200                   0    50  100  150  200  250
                                 Decoder timstep                              Decoder timstep
                                   (a) ኄʷԲ                                                                       (b) ኄ̄Բ
                                              图 10  测试句子的 alignment 效果图
                                         Fig. 10 Attention alignments on a test sentence
                    0                                            0
                   200                                         200
                   400                                         400
                   600                                         600
                   800                                         800
                  1000                                        1000
                     0       50     100     150    200            0     50    100   150    200   250
                          -4 -3 -2 -1   0  1  2  3  4                  -4 -3 -2 -1  0  1  2  3  4
                                    (a) ኄʷԲ                                                                       (b) ኄ̄Բ
                                                  图 11  测试句子的语谱图
                                           Fig. 11 Mel-Spectrogram of test sentences
   137   138   139   140   141   142   143   144   145   146   147