Page 185 - 《应用声学》2023年第3期
P. 185

第 42 卷 第 3 期            王媛媛等: 基于平均模型和误差削减网络的语声转换系统                                          623


                        ᝫጷ᫽඀1                         ᝫጷ᫽඀2                            ᝫጷ᫽඀3

                      ܳឭភ̡஝૶                        ᄬಖឭភ̡஝૶                  ູឭភ̡஝૶            ᄬಖឭភ̡஝૶


                                                                               ྲढ़ଢԩ          STRAIGHT

               ྲढ़ଢԩ            STRAIGHT       ྲढ़ଢԩ           STRAIGHT                          ឦܦѬౢ
                                ឦܦѬౢ                          ឦܦѬౢ
                                                                                        ູMCEP        ᄬಖMCEP
                                                                           MFCC
             MFCC            MCEP           MFCC            MCEP
                                                                                      One-hot
                       One-hot                       One-hot                  ᮕᝫጷᄊ    ᮃጉಖኤ
                       ᮃጉಖኤ                          ᮃጉಖኤ                                       DTW
               ᮕᝫጷᄊ              CBHG         ᮕᝫጷᄊ             CBHG           ASRവی
                                                                              ࠫᴏᄊOne-hotᮃጉಖኤ       ࠫᴏᄊᄬಖ
               ASRവی           ࣱکവیᝫጷ         ASRവی          ࣱکവیᒭᤠऄ


                                                                                                    MCEP
                                                                               ᒭᤠऄ           DBLSTM
                                                                             CBHGവی        ឨࣀҐѓᎪፏᝫጷ
                                                                                      ᣁ૱ᄊ
                                                                                      MCEP
                                                图 3  本文所提出的语声转换系统
                                     Fig. 3 Thevoice conversion system proposed in this paper
             自适应平均模型训练所使用的目标数据为同一组                             的PPG 特征。然后,训练好的自适应平均模型用于
             数据。使用相同的 ASR 系统来生成源语声的 PPG                        将PPG特征转换为MCEP特征。最后,将转换后的
             特征,通过动态时间规整 (Dynamic time warping,                MCEP 特征输入到误差削减网络中,得到最终的转
             DTW) 技术对来自源语声和目标语声的平行语句                           换结果。最终的输出MCEP 特征与转换后的 log F 0
             MCEP特征进行对齐,同时利用对齐信息得到对齐                           和AP分量结合,由STRAIGHT声码器重构得到输
             的 PPG 特征。然后将 PPG 特征输入到自适应平均                       出语声。
             模型中,生成对齐的转换后 MCEP。在误差削减网
             络的训练中,输入的是对齐的转换后 MCEP,输出                          3 实验结果与分析
             是目标语声的原始 MCEP 特征。训练后得到的误
             差削减网络可以进一步降低之前训练阶段中所产                             3.1  实验设置
             生的误差。                                                 本节中进行了一系列测试实验来评估本文所
                 在所有的训练阶段中,均采用生成的MCEP和                         提出的框架性能,即基于平均模型和误差削减网络
             原始 MCEP 特征之间的均方差作为模型的优化目                          的语声转换系统。第1 节中所描述的基于CBHG 的
             标函数。                                              语声转换系统和第 2 节中所描述的基于 CBHG 的
             2.2 实际运行阶段                                        自适应平均模型作为本文实验的基线模型,同所提
                 在转换阶段,输入的是来自源说话人的一整个                          出系统进行了比较。自适应平均模型是本文提出的

             语句。log F 0 和AP的转换与第1节中所描述的基于                      算法的一个中间步骤,图 4 展示了自适应平均模型
             CBHG 的语声转换系统相同。将源语声的 MFCC                         在实际运行时的转换过程。图5 展示了本文提出的
             特征输入到预训练的 ASR模型中,获得输入源语声                          系统在实际运行时和自适应平均模型之间的差异。
                                                                   ᣁ૱ᄊ
                                         ᮕᝫጷᄊ              ᒭᤠऄ     MCEP
                                         ASRവی           CBHGവی

                                                                          STRAIGHT
                            ູឦܦ                                            ឦܦ᧘౞         ᄬಖឦܦ
                                                            AP
                                       STRAIGHT
                                         ឦܦѬౢ      logF   ጳভᣁ૱

                                              图 4  自适应平均模型的实际转换过程
                                   Fig. 4 The actual conversion process of adaptive average model
   180   181   182   183   184   185   186   187   188   189   190