Page 187 - 《应用声学》2023年第3期
P. 187
第 42 卷 第 3 期 王媛媛等: 基于平均模型和误差削减网络的语声转换系统 625
得到的误差削减网络后,性能可以得到明显的提升, 均语声质量,对接下来系统模块的性能提升有很大
优于自适应平均模型和使用 100组平行训练数据的 帮助。
CBHG基线模型。
3.3 主观评估
۳ጳ 20.40%
为了评估不同系统转换后语声的质量和说话
人相似度,进行了主观听力测试,邀请 10 名参与者
对每个系统所生成的10个语句进行评价。
ਫ਼ଢѣ 79.60%
进行了平均意见得分 (Mean opinion score, வข
MOS) 测试,参与者对听到的语声质量按照 5 分
0 20.00% 40.00% 60.00% 80.00% 100.00%
制的规定进行评分: 1 = 极差,2 = 差,3 = 一般,
4 = 好,5 = 极好。在本节实验中,分别对以下 3 个
系统进行了 MOS 测试:(1) 基线方法,基于 CBHG
ᒭᤠऄ
的平行语声转换系统,训练数据为 100 组平行数据; ࣱکവی 36.28%
(2) 第 2 节中所描述自适应平均模型;(3) 本文所提
出的方法。MOS 测试的结果和 95% 的置信区间如
ਫ਼ଢѣ
图 6 所示。基线方法、自适应平均模型和所提出的 வข 63.72%
方法得分分别为3.28、3.57和3.83。
0 20.00% 40.00% 60.00% 80.00% 100.00%
4.5
3.83
4.0 3.57 图 7 说话人相似度的 ABX 测试结果
3.28
3.5 Fig. 7 ABX test results of speaker similarity
४Ѭ 3.0
2.5
4 结论
2.0
1.5
本文提出了一种基于平均模型和误差削减网
1.0
۳ጳ ᒭᤠऄࣱکവی ਫ਼ଢѣவข 络的语声转换系统,在源说话人和目标说话人的平
图 6 语声质量和自然度的 MOS 测试结果及其 95% 行数据有限的情况下,可以实现良好的转换性能。
置信区间 首先,提出使用排除源说话人和目标说话人的多说
Fig. 6 MOS test results of speech quality and 话人数据,训练一个 PPG 特征到 MCEP 映射的平
naturalness and their 95% confidence intervals 均模型。然后,提出用有限的目标说话人数据来进
此外,还进行了 ABX 偏好测试来评估两个不 行平均模型的自适应。此外,还实现了一个可以提
同系统生成的转换语声的说话人相似度。在基线方 高语声转换质量的误差削减网络。客观和主观评估
法和本文提出的方法之间,以及自适应平均模型和 的实验结果表明,本文提出的方法可以很好地利用
所提出方法之间进行 ABX 偏好测试,参与者要求 有限的数据,实现优于基线方法的系统性能。在接
从给出的 A 语句和 B 语句中,选择出听起来更接近 下来的工作中,将研究使用 WaveNet 声码器来替代
目标说话人语声 X的一个。说话人相似度的偏好测 STRAIGHT 声码器,逐样本生成原始声频波形,以
试结果如图7所示。 提高转换语声的质量和自然度。
总的来说,MOS 测试和 ABX 偏好测试的结果
都表明,本文提出的基于平均模型和误差削减网络
参 考 文 献
的语声转换方法,在有限的平行训练数据条件下,
在语声质量和说话人相似度的评估上都优于使用
[1] Kain A, Macon M W. Spectral voice conversion for text-
大量平行数据的基线方法。由于平均模型的训练中
to-speech synthesis[C]. Proceedings of the 1998 IEEE In-
使用大量的训练数据,达到了比基线方法更好的平 ternational Conference on Acoustics, Speech and Signal