Page 187 - 《应用声学》2023年第3期
P. 187

第 42 卷 第 3 期            王媛媛等: 基于平均模型和误差削减网络的语声转换系统                                          625


             得到的误差削减网络后,性能可以得到明显的提升,                           均语声质量,对接下来系统模块的性能提升有很大
             优于自适应平均模型和使用 100组平行训练数据的                          帮助。
             CBHG基线模型。
             3.3 主观评估
                                                                     ۳ጳ  20.40%
                 为了评估不同系统转换后语声的质量和说话
             人相似度,进行了主观听力测试,邀请 10 名参与者
             对每个系统所生成的10个语句进行评价。
                                                                    ਫ਼ଢѣ           79.60%
                 进行了平均意见得分 (Mean opinion score,                     வข
             MOS) 测试,参与者对听到的语声质量按照 5 分
                                                                        0   20.00% 40.00% 60.00% 80.00% 100.00%
             制的规定进行评分: 1 = 极差,2 = 差,3 = 一般,
             4 = 好,5 = 极好。在本节实验中,分别对以下 3 个
             系统进行了 MOS 测试:(1) 基线方法,基于 CBHG
                                                                   ᒭᤠऄ
             的平行语声转换系统,训练数据为 100 组平行数据;                           ࣱکവی      36.28%
             (2) 第 2 节中所描述自适应平均模型;(3) 本文所提
             出的方法。MOS 测试的结果和 95% 的置信区间如
                                                                    ਫ਼ଢѣ
             图 6 所示。基线方法、自适应平均模型和所提出的                               வข          63.72%
             方法得分分别为3.28、3.57和3.83。
                                                                        0   20.00% 40.00% 60.00% 80.00% 100.00%
                    4.5
                                              3.83
                    4.0             3.57                               图 7  说话人相似度的 ABX 测试结果
                          3.28
                    3.5                                            Fig. 7 ABX test results of speaker similarity
                   ४Ѭ  3.0
                    2.5
                                                               4 结论
                    2.0
                    1.5
                                                                   本文提出了一种基于平均模型和误差削减网
                    1.0
                          ۳ጳ     ᒭᤠऄࣱکവی     ਫ਼ଢѣவข             络的语声转换系统,在源说话人和目标说话人的平
                图 6 语声质量和自然度的 MOS 测试结果及其 95%                   行数据有限的情况下,可以实现良好的转换性能。
                置信区间                                           首先,提出使用排除源说话人和目标说话人的多说
               Fig. 6 MOS test results of speech quality and   话人数据,训练一个 PPG 特征到 MCEP 映射的平
               naturalness and their 95% confidence intervals   均模型。然后,提出用有限的目标说话人数据来进

                 此外,还进行了 ABX 偏好测试来评估两个不                        行平均模型的自适应。此外,还实现了一个可以提
             同系统生成的转换语声的说话人相似度。在基线方                            高语声转换质量的误差削减网络。客观和主观评估
             法和本文提出的方法之间,以及自适应平均模型和                            的实验结果表明,本文提出的方法可以很好地利用
             所提出方法之间进行 ABX 偏好测试,参与者要求                          有限的数据,实现优于基线方法的系统性能。在接
             从给出的 A 语句和 B 语句中,选择出听起来更接近                        下来的工作中,将研究使用 WaveNet 声码器来替代
             目标说话人语声 X的一个。说话人相似度的偏好测                           STRAIGHT 声码器,逐样本生成原始声频波形,以
             试结果如图7所示。                                         提高转换语声的质量和自然度。
                 总的来说,MOS 测试和 ABX 偏好测试的结果
             都表明,本文提出的基于平均模型和误差削减网络
                                                                              参 考 文        献
             的语声转换方法,在有限的平行训练数据条件下,
             在语声质量和说话人相似度的评估上都优于使用
                                                                 [1] Kain A, Macon M W. Spectral voice conversion for text-
             大量平行数据的基线方法。由于平均模型的训练中
                                                                   to-speech synthesis[C]. Proceedings of the 1998 IEEE In-
             使用大量的训练数据,达到了比基线方法更好的平                                ternational Conference on Acoustics, Speech and Signal
   182   183   184   185   186   187   188   189   190   191   192