Page 184 - 《应用声学》2023年第3期
P. 184

622                                                                                  2023 年 5 月

                                        ʷ፥Ԅሥ      ௑ᫎᣉʽ                        ԥՔ॰ဗ
                                       ໚ฉ٨ ۷ԯ     తܸ෉ӑ      ʷ፥Ԅሥ              ᇸፃᎪፏ


                                                                             ᰴ
                                                                  ʷ  ൵ࣀᤌଌ    ᤴ
                                                                  ፥          Н
                                                                  Ԅ
                                                                  ሥ          ᡹
                                                                             Ꭺ
                                                                  ࡏ
                                                                             ፏ

                                                  图 1  CBHG 网络模型结构
                                           Fig. 1 Model architecture of CBHG network

                 基于CBHG网络的语声转换的整体框架如图2                         利用除源说话人和目标说话人以外的多说话人数
                                                               据,训练一个 CBHG 平均模型,用于语声后验图
             所示。在这个模型框架中,对包括频谱特征、log F 0
             和非周期分量 (Aperiodicity, AP) 在内的 3 个特征               (Phonetic posterior grams, PPG) 到梅尔倒谱系数
             流分别进行转换。频谱特征由 CBHG 模型进行转                          (Mel-cepstral coefficients, MCEPs)的映射。MCEP
             换,基频转换通过将源说话人 log F 0 的平均数和标                      是一种梅尔对数频谱逼近参数 (Mel-log spectrum
             准差归一化为目标说话者的平均数和标准差进行                             approximation, MLSA),表示梅尔频率倒谱系数
             线性转换,AP 分量则是直接从源特征中复制而不                           (Mel-frequency cepstral coefficients,MFCC) 的近
             进行转换。模型将整个语句的特征作为输入,使系                            似。输入语声的音素信息是使用一个预训练好
             统可以从前向和后向序列中获取长程上下文信息。                            的 ASR 系统提取的,ASR 模型的输入是语声帧的
             本文中所提出的方法是在有限的训练数据条件下,                            MFCC 特征,输出是 PPG 特征,表示对应语声帧
             利用CBHG模型进行语声转换。                                   的音素类别的后验概率。训练一个基于 CBHG 网
                ູ     STRAIGHT          logF                  络结构的模型,学习 PPG 特征和对应的 MCEP 特

                ឦ      ឦܦѬౢ             AP
                ܦ                       ᮠ៨                     征帧之间的映射关系,MCEP 由 STRAIGHT 声码
                                                               器 [22]  提取。将训练好的模型称为平均模型,它
                                       CBHG                    只能生成训练数据中说话人的平均语声的 MCEP
                                       ᣁ૱വی       ጳভᣁ૱
                                                               特征。

                                        ᮠ៨                         在训练阶段 2,使用少量的目标说话人数据对
               ᄬಖ     STRAIGHT          AP

               ឦܦ      ឦܦ᧘౞                                    平均模型进行自适应。自适应过程与平均模型的训
                                        logF 
                                                               练类似,不同点在于使用训练好的平均模型对网络
                    图 2  基于 CBHG 网络的语声转换系统
                                                               进行初始化,自适应训练使用的数据是目标说话人
                Fig. 2 Voice conversion system based on CBHG
                                                               语声数据。自适应训练后,模型的输出将从平均语
                network
                                                               声向目标说话人靠近。将该阶段训练好的模型称为
             2 基 于 平 均 模 型 和 误 差 削 减 网 络 的 语                   自适应平均模型。然而值得注意的是,不管转换网
                声转换                                            络的性能如何,转换后的特征和目标特征之间总是
                                                               存在一个误差,这种误差会降低转换后语声的质量
                 虽然第 1 节所描述的基于 CBHG 网络的语声
                                                               和说话人相似度        [23] 。为了减少这种误差,提出了应
             转换具有很好的性能,但是需要同时收集大量的来
                                                               用于自适应平均模型的误差削减网络。
             自源说话人和目标说话人的平行数据,在实际应用
                                                                   训练阶段 3 中涉及误差削减网络的训练,它本
             中成本较高。为了解决这个问题,提出了一种基于
                                                               质上是一个附加的 DBLSTM 网络,用于将转换后
             平均模型和误差削减网络的语声转换。
                                                               的 MCEP 映射到目标 MCEP。误差削减网络的目
             2.1 训练阶段                                          的就是使最终的输出 MCEP 特征更接近于目标说
                 本文所提出的语声转换框架如图 3 所示,整个                        话人。误差削减网络训练时使用的数据为来自源
             训练过程可以分为 3 个训练阶段。在训练阶段 1 中,                       说话人和目标说话人的平行数据,同训练阶段 2 中
   179   180   181   182   183   184   185   186   187   188   189