Page 186 - 《应用声学》2023年第3期
P. 186

624                                                                                  2023 年 5 月

                                                                          ᣁ૱ᄊ
                                    ᮕᝫጷᄊ             ᒭᤠऄ        DBLSTM    MCEP
                                   ASRവی           CBHGവی       ឨࣀҐѓᎪፏ
                                                                                STRAIGHT
                     ູឦܦ                                                          ឦܦ᧘౞        ᄬಖឦܦ
                                                      AP
                                  STRAIGHT
                                   ឦܦѬౢ            logF         ጳভᣁ૱

                                              图 5  本文所提出模型的实际转换过程
                                    Fig. 5 The actual conversion process of the proposed model

                 实验中使用的数据库是 CMU ARCTIC 语料                      更好地利用上下文信息,采用 3 个连续帧的转换后
             库  [24] 。由于语声转换研究中跨性别语声转换是最                       MCEP 作为输入特征,即当前帧、当前帧的上一帧
             具挑战性的工作,本文选择了跨性别的语声转换作                            和当前帧的下一帧特征。误差削减网络的网络结构
             为任务目标。语声信号的采样频率为 16 kHz,单声                        中共有 3个隐层,每层的单元数分别为[120 128 256
             道,通过 STRAIGHT 提取 40 维MCEP 作为声学特                   128 40]。
             征,窗长为 25 ms,帧移为 5 ms。在基于 CBHG 网                       在作为基线系统的基于 CBHG 网络的平行语
             络的平均模型训练中,使用了4个男性说话者(awb、                         声转换系统训练中,采用来自源说话人和目标说话
             jmk、ksp、rms)的数据,其中训练数据和测试数据分                      人的 100 个平行语句作为训练数据。基线模型网络
             别为 4433 句和 489 句。在训练阶段 2 中,分别使用                   结构与自适应平均模型的配置相同。在模型训练中,
             目标说话人 (slt) 的 45 个和 5 个句子来作为训练数                   学习率为10     −5 ,动量因子为0.9。
             据和测试数据进行平均模型自适应训练。在误差削                            3.2  客观评估
             减网络的训练中,来自源说话人 (bdl) 的训练数据                            使用梅尔倒谱失真 (Mel-cepstral distortion,
             是自适应平均模型中使用的目标语声的平行数据。
                                                               MCD) 作为客观评价指标,评测转换后的频谱和
             PPG 特征的维度为 171,通过一个基于 DNN-HMM                     真实目标频谱之间的距离,用公式表示为
             的预训练ASR系统获取           [25] 。                                       v
                                                                                u    D
                                                                                                           2
                 详细的模型结构和参数如表 1 所示。CBHG 网                       MCD [dB] =   10  u ∑   (C target  − C converted ) ,
                                                                                   2
                                                                                t
                                                                            ln 10         d       d
             络中的一维卷积滤波器组 K 设为16,最大池化步长                                              d=1
             为 1 宽度为 2,之后的一维卷积投影层宽度为 3,所                                                                  (1)
             有卷积层的通道数均为 128。高速公路网络由 4 层                        其中,C   target  和C converted  分别表示第d维的真实目
                                                                      d        d
             全连接层组成,每层包含128个单元。双向门控循环                          标MCEP特征和转换后MCEP特征。越低的MCD
             网络包含 128 个单元,最后通过线性映射层生成 40                       数值代表越高的系统性能。
             维 MCEP。模型训练前,将所有训练样本归一化为                              表 2 中列出了不同系统的跨性别语声转换的
             零均值和单位方差。在误差削减网络训练中,为了                            MCD得分结果。从结果中可以看出,本文提出的方
                                                               法优于CBHG基线模型和自适应的平均模型。还可

                       表 1   详细的模型结构和参数                        以看到,自适应平均模型的训练中没有使用平行数
                Table 1 Detailsof model architecture and       据,因此自适应平均模型的 MCD 得分不如 CBHG
                hyper-parameters                               基线模型。但是经过仅使用 50 组平行数据训练

                            一维卷积滤波器:K = 16,conv-k-128
                                                                    表 2  不同语声转换系统的 MCD 结果比较
                            最大池化:步长 = 1,宽度 = 2
                  CBHG 网络   一维卷积投影层:conv-3-128                    Table 2  Comparison of MCD results of
                            高速公路网络:4 层 128 单元全连接层                 different speech conversion systems
                            双向门控循环网络:128 单元
                            输入层:120 单元
                                                                  源 -目标  CBHG 基线系统    自适应平均模型      所提出方法
                 误差削减网络     隐层:[128 256 128]
                            输出层:40 单元                             9.2845    5.6235       5.7309      5.2164
   181   182   183   184   185   186   187   188   189   190   191