Page 85 - 《应用声学》2023年第1期
P. 85
第 42 卷 第 1 期 胡航烨等: 汉语儿童情感语声合成 81
नॷ 0.87 0.07 0.03 0.03 नॷ 0.86 0.02 0.07 0.05 0.8
0.8
͞ॷ 0.04 0.88 0.08 0.00 0.6 ͞ॷ 0.02 0.91 0.07 0.00 0.6
0.4 0.4
৳ᝳ 0.12 0.08 0.81 0.00 ৳ᝳ 0.14 0.00 0.82 0.05
0.2 0.2
ਙড 0.04 0.00 0.00 0.96 ਙড 0.02 0.00 0.05 0.93
0 0
नॷ ͞ॷ ৳ᝳ ਙড नॷ ͞ॷ ৳ᝳ ਙড
(a) ੇ̡ (b) Јቨ
图 6 合成情感语声混淆矩阵
Fig. 6 Synthetic emotion speech confusion matrix
3.2 主观实验结果 的平均值为 4.17,其中愤怒和惊讶两种情感的自然
现如今大多数的情感语声合成测评都采用 度最低,儿童在表达这两种情感的时候语速通常较
主观听辨实验来进行评价。本实验选择 MOS 和 快,韵律特征上较为明显,时长会大幅度缩短,汉语
EMOS 两种测评从自然度和情感度两个维度对合 的语声合成存在由于急促停顿而音节合成不完整
成的语声进行评价。 的现象,这一现象在儿童语声合成上更为明显。相
实验选取合成的儿童情感语声共 40 句 (每种 比较于文献 [25] 中研究,利用 (DCTTS 合成模型实
情感 10 句),要求 20 名听众对声频进行自然度和情 现低资源情感语声合成,其各情感的平均 EMOS 值
感度的评价,评价分为 5 个等级,评价量表如表 2∼3 在2.1∼3.59 的范围内,本文的EMOS值比较可观能
所示。 达到 4.17,说明对 Tacotron2 模型进行重新构建之
后更适用于低资源的情感语声合成,并且在情感表
表 2 MOS 评测分值标准表 达上,本实验提出的方法具有一定的可行性。
Table 2 MOS evaluation score standard table
表 4 儿童合成情感语声 MOS/EMOS 评测值
分值 评测标准 Table 4 MOS/EMOS evaluation of chil-
0∼1 劣,极差,听不懂 dren’s synthetic emotional speech
1∼2 差,勉强,听不太清楚
情感 MOS EMOS
2∼3 中,有延迟,可以接受
愤怒 3.42 ± 0.13 4.1 ± 0.12
3∼4 良,听得清楚,愿意接受
开心 3.805 ± 0.13 4.125 ± 0.13
4∼5 优,很自然
伤心 3.745 ± 0.12 4.265 ± 0.11
表 3 EMOS 评测分值标准表 惊讶 3.52 ± 0.13 4.2 ± 0.11
平均 3.62 4.17
Table 3 EMOS evaluation score standard table
分值 评测标准 4 结论
0∼1 劣,情感度不明
本文提出了一种基于迁移学习的低资源儿童
1∼2 差,情感度模糊
汉语情感语声合成,其目的是解决儿童语料建模难
2∼3 中,情感度可以接受
度大、资源匮乏、训练时间长而导致合成模型训练
3∼4 良,情感度愿意接受
效果不佳等问题。本文首先在 Tacotron2 模型的基
4∼5 优,情感相似度理想
础上实现汉语的语声合成,利用 ESD成人汉语情感
主观听辨实验的结果(如表4 所示) 给出了 95% 语料库实现情感语声模型,在此基础上使用小样本
置信区间的 MOS 值,MOS的平均值为 3.62,EMOS 的儿童情感语声实现儿童特征低维迁移,在保证情