Page 184 - 《应用声学》2023年第3期
P. 184
622 2023 年 5 月
ʷ፥Ԅሥ ᫎᣉʽ ԥՔ॰ဗ
ฉ٨ ۷ԯ తܸӑ ʷ፥Ԅሥ ᇸፃᎪፏ
ᰴ
ʷ ൵ࣀᤌଌ ᤴ
፥ Н
Ԅ
ሥ
Ꭺ
ࡏ
ፏ
图 1 CBHG 网络模型结构
Fig. 1 Model architecture of CBHG network
基于CBHG网络的语声转换的整体框架如图2 利用除源说话人和目标说话人以外的多说话人数
据,训练一个 CBHG 平均模型,用于语声后验图
所示。在这个模型框架中,对包括频谱特征、log F 0
和非周期分量 (Aperiodicity, AP) 在内的 3 个特征 (Phonetic posterior grams, PPG) 到梅尔倒谱系数
流分别进行转换。频谱特征由 CBHG 模型进行转 (Mel-cepstral coefficients, MCEPs)的映射。MCEP
换,基频转换通过将源说话人 log F 0 的平均数和标 是一种梅尔对数频谱逼近参数 (Mel-log spectrum
准差归一化为目标说话者的平均数和标准差进行 approximation, MLSA),表示梅尔频率倒谱系数
线性转换,AP 分量则是直接从源特征中复制而不 (Mel-frequency cepstral coefficients,MFCC) 的近
进行转换。模型将整个语句的特征作为输入,使系 似。输入语声的音素信息是使用一个预训练好
统可以从前向和后向序列中获取长程上下文信息。 的 ASR 系统提取的,ASR 模型的输入是语声帧的
本文中所提出的方法是在有限的训练数据条件下, MFCC 特征,输出是 PPG 特征,表示对应语声帧
利用CBHG模型进行语声转换。 的音素类别的后验概率。训练一个基于 CBHG 网
ູ STRAIGHT logF 络结构的模型,学习 PPG 特征和对应的 MCEP 特
ឦ ឦܦѬౢ AP
ܦ ᮠ៨ 征帧之间的映射关系,MCEP 由 STRAIGHT 声码
器 [22] 提取。将训练好的模型称为平均模型,它
CBHG 只能生成训练数据中说话人的平均语声的 MCEP
ᣁ૱വی ጳভᣁ૱
特征。
ᮠ៨ 在训练阶段 2,使用少量的目标说话人数据对
ᄬಖ STRAIGHT AP
ឦܦ ឦܦ᧘ 平均模型进行自适应。自适应过程与平均模型的训
logF
练类似,不同点在于使用训练好的平均模型对网络
图 2 基于 CBHG 网络的语声转换系统
进行初始化,自适应训练使用的数据是目标说话人
Fig. 2 Voice conversion system based on CBHG
语声数据。自适应训练后,模型的输出将从平均语
network
声向目标说话人靠近。将该阶段训练好的模型称为
2 基 于 平 均 模 型 和 误 差 削 减 网 络 的 语 自适应平均模型。然而值得注意的是,不管转换网
声转换 络的性能如何,转换后的特征和目标特征之间总是
存在一个误差,这种误差会降低转换后语声的质量
虽然第 1 节所描述的基于 CBHG 网络的语声
和说话人相似度 [23] 。为了减少这种误差,提出了应
转换具有很好的性能,但是需要同时收集大量的来
用于自适应平均模型的误差削减网络。
自源说话人和目标说话人的平行数据,在实际应用
训练阶段 3 中涉及误差削减网络的训练,它本
中成本较高。为了解决这个问题,提出了一种基于
质上是一个附加的 DBLSTM 网络,用于将转换后
平均模型和误差削减网络的语声转换。
的 MCEP 映射到目标 MCEP。误差削减网络的目
2.1 训练阶段 的就是使最终的输出 MCEP 特征更接近于目标说
本文所提出的语声转换框架如图 3 所示,整个 话人。误差削减网络训练时使用的数据为来自源
训练过程可以分为 3 个训练阶段。在训练阶段 1 中, 说话人和目标说话人的平行数据,同训练阶段 2 中