Page 186 - 《应用声学》2023年第3期
P. 186
624 2023 年 5 月
ᣁ૱ᄊ
ᮕᝫጷᄊ ᒭᤠऄ DBLSTM MCEP
ASRവی CBHGവی ឨࣀҐѓᎪፏ
STRAIGHT
ູឦܦ ឦܦ᧘ ᄬಖឦܦ
AP
STRAIGHT
ឦܦѬౢ logF ጳভᣁ૱
图 5 本文所提出模型的实际转换过程
Fig. 5 The actual conversion process of the proposed model
实验中使用的数据库是 CMU ARCTIC 语料 更好地利用上下文信息,采用 3 个连续帧的转换后
库 [24] 。由于语声转换研究中跨性别语声转换是最 MCEP 作为输入特征,即当前帧、当前帧的上一帧
具挑战性的工作,本文选择了跨性别的语声转换作 和当前帧的下一帧特征。误差削减网络的网络结构
为任务目标。语声信号的采样频率为 16 kHz,单声 中共有 3个隐层,每层的单元数分别为[120 128 256
道,通过 STRAIGHT 提取 40 维MCEP 作为声学特 128 40]。
征,窗长为 25 ms,帧移为 5 ms。在基于 CBHG 网 在作为基线系统的基于 CBHG 网络的平行语
络的平均模型训练中,使用了4个男性说话者(awb、 声转换系统训练中,采用来自源说话人和目标说话
jmk、ksp、rms)的数据,其中训练数据和测试数据分 人的 100 个平行语句作为训练数据。基线模型网络
别为 4433 句和 489 句。在训练阶段 2 中,分别使用 结构与自适应平均模型的配置相同。在模型训练中,
目标说话人 (slt) 的 45 个和 5 个句子来作为训练数 学习率为10 −5 ,动量因子为0.9。
据和测试数据进行平均模型自适应训练。在误差削 3.2 客观评估
减网络的训练中,来自源说话人 (bdl) 的训练数据 使用梅尔倒谱失真 (Mel-cepstral distortion,
是自适应平均模型中使用的目标语声的平行数据。
MCD) 作为客观评价指标,评测转换后的频谱和
PPG 特征的维度为 171,通过一个基于 DNN-HMM 真实目标频谱之间的距离,用公式表示为
的预训练ASR系统获取 [25] 。 v
u D
2
详细的模型结构和参数如表 1 所示。CBHG 网 MCD [dB] = 10 u ∑ (C target − C converted ) ,
2
t
ln 10 d d
络中的一维卷积滤波器组 K 设为16,最大池化步长 d=1
为 1 宽度为 2,之后的一维卷积投影层宽度为 3,所 (1)
有卷积层的通道数均为 128。高速公路网络由 4 层 其中,C target 和C converted 分别表示第d维的真实目
d d
全连接层组成,每层包含128个单元。双向门控循环 标MCEP特征和转换后MCEP特征。越低的MCD
网络包含 128 个单元,最后通过线性映射层生成 40 数值代表越高的系统性能。
维 MCEP。模型训练前,将所有训练样本归一化为 表 2 中列出了不同系统的跨性别语声转换的
零均值和单位方差。在误差削减网络训练中,为了 MCD得分结果。从结果中可以看出,本文提出的方
法优于CBHG基线模型和自适应的平均模型。还可
表 1 详细的模型结构和参数 以看到,自适应平均模型的训练中没有使用平行数
Table 1 Detailsof model architecture and 据,因此自适应平均模型的 MCD 得分不如 CBHG
hyper-parameters 基线模型。但是经过仅使用 50 组平行数据训练
一维卷积滤波器:K = 16,conv-k-128
表 2 不同语声转换系统的 MCD 结果比较
最大池化:步长 = 1,宽度 = 2
CBHG 网络 一维卷积投影层:conv-3-128 Table 2 Comparison of MCD results of
高速公路网络:4 层 128 单元全连接层 different speech conversion systems
双向门控循环网络:128 单元
输入层:120 单元
源 -目标 CBHG 基线系统 自适应平均模型 所提出方法
误差削减网络 隐层:[128 256 128]
输出层:40 单元 9.2845 5.6235 5.7309 5.2164