Page 85 - 《应用声学》2023年第1期
P. 85

第 42 卷 第 1 期                     胡航烨等: 汉语儿童情感语声合成                                            81



                         नॷ   0.87  0.07  0.03  0.03           नॷ   0.86  0.02  0.07  0.05     0.8
                                                        0.8

                         ͞ॷ   0.04  0.88  0.08  0.00    0.6    ͞ॷ   0.02  0.91  0.07  0.00     0.6

                                                        0.4                                    0.4
                         ৳ᝳ   0.12  0.08  0.81  0.00           ৳ᝳ   0.14  0.00  0.82  0.05
                                                        0.2                                    0.2
                         ਙড   0.04  0.00  0.00  0.96           ਙড   0.02  0.00  0.05  0.93
                                                        0                                      0
                              नॷ    ͞ॷ    ৳ᝳ    ਙড                  नॷ    ͞ॷ    ৳ᝳ    ਙড
                                     (a) ੇ̡                                 (b) Јቨ

                                                 图 6  合成情感语声混淆矩阵
                                        Fig. 6 Synthetic emotion speech confusion matrix

             3.2 主观实验结果                                        的平均值为 4.17,其中愤怒和惊讶两种情感的自然
                 现如今大多数的情感语声合成测评都采用                            度最低,儿童在表达这两种情感的时候语速通常较
             主观听辨实验来进行评价。本实验选择 MOS 和                           快,韵律特征上较为明显,时长会大幅度缩短,汉语
             EMOS 两种测评从自然度和情感度两个维度对合                           的语声合成存在由于急促停顿而音节合成不完整
             成的语声进行评价。                                         的现象,这一现象在儿童语声合成上更为明显。相
                 实验选取合成的儿童情感语声共 40 句 (每种                       比较于文献 [25] 中研究,利用 (DCTTS 合成模型实
             情感 10 句),要求 20 名听众对声频进行自然度和情                      现低资源情感语声合成,其各情感的平均 EMOS 值
             感度的评价,评价分为 5 个等级,评价量表如表 2∼3                       在2.1∼3.59 的范围内,本文的EMOS值比较可观能
             所示。                                               达到 4.17,说明对 Tacotron2 模型进行重新构建之
                                                               后更适用于低资源的情感语声合成,并且在情感表
                        表 2 MOS 评测分值标准表                        达上,本实验提出的方法具有一定的可行性。
              Table 2 MOS evaluation score standard table
                                                                   表 4 儿童合成情感语声 MOS/EMOS 评测值
                    分值                  评测标准                      Table 4 MOS/EMOS evaluation of chil-
                    0∼1               劣,极差,听不懂                    dren’s synthetic emotional speech
                    1∼2             差,勉强,听不太清楚
                                                                   情感            MOS              EMOS
                    2∼3             中,有延迟,可以接受
                                                                   愤怒          3.42 ± 0.13       4.1 ± 0.12
                    3∼4             良,听得清楚,愿意接受
                                                                   开心          3.805 ± 0.13     4.125 ± 0.13
                    4∼5                 优,很自然
                                                                   伤心          3.745 ± 0.12     4.265 ± 0.11
                       表 3 EMOS 评测分值标准表                            惊讶          3.52 ± 0.13       4.2 ± 0.11
                                                                   平均             3.62             4.17
             Table 3 EMOS evaluation score standard table

                    分值                   评测标准                  4 结论
                    0∼1                劣,情感度不明
                                                                   本文提出了一种基于迁移学习的低资源儿童
                    1∼2                差,情感度模糊
                                                               汉语情感语声合成,其目的是解决儿童语料建模难
                    2∼3              中,情感度可以接受
                                                               度大、资源匮乏、训练时间长而导致合成模型训练
                    3∼4              良,情感度愿意接受
                                                               效果不佳等问题。本文首先在 Tacotron2 模型的基
                    4∼5              优,情感相似度理想
                                                               础上实现汉语的语声合成,利用 ESD成人汉语情感
                 主观听辨实验的结果(如表4 所示) 给出了 95%                     语料库实现情感语声模型,在此基础上使用小样本
             置信区间的 MOS 值,MOS的平均值为 3.62,EMOS                    的儿童情感语声实现儿童特征低维迁移,在保证情
   80   81   82   83   84   85   86   87   88   89   90