Page 85 - 《应用声学》2023年第1期

P. 85

第 42 卷第 1 期胡航烨等：汉语儿童情感语声合成 81

नॷ 0.87 0.07 0.03 0.03 नॷ 0.86 0.02 0.07 0.05 0.8
0.8

͞ॷ 0.04 0.88 0.08 0.00 0.6 ͞ॷ 0.02 0.91 0.07 0.00 0.6

0.4 0.4
৳ᝳ 0.12 0.08 0.81 0.00 ৳ᝳ 0.14 0.00 0.82 0.05
0.2 0.2
ਙড 0.04 0.00 0.00 0.96 ਙড 0.02 0.00 0.05 0.93
0 0
नॷ ͞ॷ ৳ᝳ ਙড नॷ ͞ॷ ৳ᝳ ਙড
(a) ੇ̡ (b) Јቨ

图 6 合成情感语声混淆矩阵
Fig. 6 Synthetic emotion speech confusion matrix

3.2 主观实验结果的平均值为 4.17，其中愤怒和惊讶两种情感的自然
现如今大多数的情感语声合成测评都采用度最低，儿童在表达这两种情感的时候语速通常较
主观听辨实验来进行评价。本实验选择 MOS 和快，韵律特征上较为明显，时长会大幅度缩短，汉语
EMOS 两种测评从自然度和情感度两个维度对合的语声合成存在由于急促停顿而音节合成不完整
成的语声进行评价。的现象，这一现象在儿童语声合成上更为明显。相
实验选取合成的儿童情感语声共 40 句 (每种比较于文献 [25] 中研究，利用 (DCTTS 合成模型实
情感 10 句)，要求 20 名听众对声频进行自然度和情现低资源情感语声合成，其各情感的平均 EMOS 值
感度的评价，评价分为 5 个等级，评价量表如表 2∼3 在2.1∼3.59 的范围内，本文的EMOS值比较可观能
所示。达到 4.17，说明对 Tacotron2 模型进行重新构建之
后更适用于低资源的情感语声合成，并且在情感表
表 2 MOS 评测分值标准表达上，本实验提出的方法具有一定的可行性。
Table 2 MOS evaluation score standard table
表 4 儿童合成情感语声 MOS/EMOS 评测值
分值评测标准 Table 4 MOS/EMOS evaluation of chil-
0∼1 劣，极差，听不懂 dren’s synthetic emotional speech
1∼2 差，勉强，听不太清楚
情感 MOS EMOS
2∼3 中，有延迟，可以接受
愤怒 3.42 ± 0.13 4.1 ± 0.12
3∼4 良，听得清楚，愿意接受
开心 3.805 ± 0.13 4.125 ± 0.13
4∼5 优，很自然
伤心 3.745 ± 0.12 4.265 ± 0.11
表 3 EMOS 评测分值标准表惊讶 3.52 ± 0.13 4.2 ± 0.11
平均 3.62 4.17
Table 3 EMOS evaluation score standard table

分值评测标准 4 结论
0∼1 劣，情感度不明
本文提出了一种基于迁移学习的低资源儿童
1∼2 差，情感度模糊
汉语情感语声合成，其目的是解决儿童语料建模难
2∼3 中，情感度可以接受
度大、资源匮乏、训练时间长而导致合成模型训练
3∼4 良，情感度愿意接受
效果不佳等问题。本文首先在 Tacotron2 模型的基
4∼5 优，情感相似度理想
础上实现汉语的语声合成，利用 ESD成人汉语情感
主观听辨实验的结果(如表4 所示) 给出了 95% 语料库实现情感语声模型，在此基础上使用小样本
置信区间的 MOS 值，MOS的平均值为 3.62，EMOS 的儿童情感语声实现儿童特征低维迁移，在保证情

80 81 82 83 84 85 86 87 88 89 90