Page 185 - 《应用声学》2023年第3期
P. 185
第 42 卷 第 3 期 王媛媛等: 基于平均模型和误差削减网络的语声转换系统 623
ᝫጷ1 ᝫጷ2 ᝫጷ3
ܳឭភ̡ ᄬಖឭភ̡ ູឭភ̡ ᄬಖឭភ̡
ྲढ़ଢԩ STRAIGHT
ྲढ़ଢԩ STRAIGHT ྲढ़ଢԩ STRAIGHT ឦܦѬౢ
ឦܦѬౢ ឦܦѬౢ
ູMCEP ᄬಖMCEP
MFCC
MFCC MCEP MFCC MCEP
One-hot
One-hot One-hot ᮕᝫጷᄊ ᮃጉಖኤ
ᮃጉಖኤ ᮃጉಖኤ DTW
ᮕᝫጷᄊ CBHG ᮕᝫጷᄊ CBHG ASRവی
ࠫᴏᄊOne-hotᮃጉಖኤ ࠫᴏᄊᄬಖ
ASRവی ࣱکവیᝫጷ ASRവی ࣱکവیᒭᤠऄ
MCEP
ᒭᤠऄ DBLSTM
CBHGവی ឨࣀҐѓᎪፏᝫጷ
ᣁ૱ᄊ
MCEP
图 3 本文所提出的语声转换系统
Fig. 3 Thevoice conversion system proposed in this paper
自适应平均模型训练所使用的目标数据为同一组 的PPG 特征。然后,训练好的自适应平均模型用于
数据。使用相同的 ASR 系统来生成源语声的 PPG 将PPG特征转换为MCEP特征。最后,将转换后的
特征,通过动态时间规整 (Dynamic time warping, MCEP 特征输入到误差削减网络中,得到最终的转
DTW) 技术对来自源语声和目标语声的平行语句 换结果。最终的输出MCEP 特征与转换后的 log F 0
MCEP特征进行对齐,同时利用对齐信息得到对齐 和AP分量结合,由STRAIGHT声码器重构得到输
的 PPG 特征。然后将 PPG 特征输入到自适应平均 出语声。
模型中,生成对齐的转换后 MCEP。在误差削减网
络的训练中,输入的是对齐的转换后 MCEP,输出 3 实验结果与分析
是目标语声的原始 MCEP 特征。训练后得到的误
差削减网络可以进一步降低之前训练阶段中所产 3.1 实验设置
生的误差。 本节中进行了一系列测试实验来评估本文所
在所有的训练阶段中,均采用生成的MCEP和 提出的框架性能,即基于平均模型和误差削减网络
原始 MCEP 特征之间的均方差作为模型的优化目 的语声转换系统。第1 节中所描述的基于CBHG 的
标函数。 语声转换系统和第 2 节中所描述的基于 CBHG 的
2.2 实际运行阶段 自适应平均模型作为本文实验的基线模型,同所提
在转换阶段,输入的是来自源说话人的一整个 出系统进行了比较。自适应平均模型是本文提出的
语句。log F 0 和AP的转换与第1节中所描述的基于 算法的一个中间步骤,图 4 展示了自适应平均模型
CBHG 的语声转换系统相同。将源语声的 MFCC 在实际运行时的转换过程。图5 展示了本文提出的
特征输入到预训练的 ASR模型中,获得输入源语声 系统在实际运行时和自适应平均模型之间的差异。
ᣁ૱ᄊ
ᮕᝫጷᄊ ᒭᤠऄ MCEP
ASRവی CBHGവی
STRAIGHT
ູឦܦ ឦܦ᧘ ᄬಖឦܦ
AP
STRAIGHT
ឦܦѬౢ logF ጳভᣁ૱
图 4 自适应平均模型的实际转换过程
Fig. 4 The actual conversion process of adaptive average model