Page 183 - 《应用声学》2023年第3期
P. 183
第 42 卷 第 3 期 王媛媛等: 基于平均模型和误差削减网络的语声转换系统 621
tional gated recurrent unit, BiGRU) 组成。CBHG
0 引言
网络可以更好地对序列数据处理,提取序列信息。
语声转换是一种修改源说话人的语声,使其 虽然这些基于深度学习的语声转换框架可以
听起来像目标说话人的技术。语声转换技术已被 实现很好的语声转换性能,但仍然存在对大量训练
成功应用于许多领域中,如文本到语声系统 (Text- 数据的依赖性问题。而对于语声转换任务来说,在
to-Speech,TTS) 、说话人去识别化 [2] 和言语辅 实际应用时大量数据通常是很难获取的,只能采用
[1]
助 [3] 。 有限的数据。剩下的问题就是如何找到一种方法,
语声转换可以被描述为估计源特征和目标特 使有限的数据得到很好的利用。与以往的研究不
征之间映射函数的回归问题。研究者们已经提出 同,本文利用 CBHG 这一强大的深度学习框架,提
了许多成功的语声转换方法,如高斯混合模型的方 出了一种在有限的平行数据条件下能够产生高质
法 [4−5] ,它是基于频谱参数轨迹的最大似然估计。 量语声的语声转换框架。具体来说,本文做出了以
动态内核偏最小二乘法 [6] 将内核变换集成到偏最 下贡献:(1) 由于 CBHG 网络可以通过对语声语句
小二乘法中,以对非线性转换关系进行建模以及 的长时依赖性进行建模来实现高性能的语声转换,
捕捉数据中的动态特性。稀疏表示方法 [7−8] 可以 本文利用多说话人的数据建立了一个基于 CBHG
看作是一种数据驱动的非参数化方法,作为传统的 的平均模型。(2) 由于基于 CBHG 的平均模型可以
参数化语声转换方法的替代。基于频率弯曲的方 很容易地用少量数据进行自适应,本文利用有限的
法 [9−10] 旨在改变源频谱的频率轴,使其接近目标 目标数据对基于 CBHG 的平均模型进行自适应训
频谱。此外,还有一些语声转换的后置滤波器方法 练,以实现转换后的声音接近于目标声音。(3) 误差
来提高语声质量 [11] 。 削减网络只需要用少量的源和目标的平行训练数
近年来,深度学习方法在语声转换领域开始流 据进行训练,所以本文提出了一个应用于自适应的
行。例如,基于深度神经网络(Deep neural network, CBHG 网络的误差削减网络,可以进一步提高语声
DNN)的方法 [12−14] 研究了平行训练数据条件下的 转换质量。总的来说,本文提出了一种基于平均模
频谱转换,通过使用大量的平行训练数据来实现高 型和误差削减网络的语声转换框架,可以用少量的
质量的语声转换。此外,关于变分自动编码器方法 训练数据产生高质量的语声。
的研究 [15] ,有效提高了语声转换的性能。
上述语声转换框架将每帧的频谱特征视为独 1 基于CBHG网络的语声转换
立的特征,并不关注语声序列所特有的长时依赖性。
标准的递归神经网络 (Recurrent neural network, CBHG 网络用于更好地从序列数据中提取上
RNN) 可以用来解决这个问题 [16−17] ,但由于 RNN 下文信息,模型结构如图 1 所示。输入序列首先与
存在梯度消失的问题 [18] ,限制了其在上下文信息建 K 个一维卷积滤波器进行卷积,其中第 k 个卷积滤
模方面的能力。此外,标准的RNN 只能捕获前向序 波器的卷积宽度为 k (k = 1, 2, · · · , K)。这些滤波
列的信息,而忽略了后向序列的信息。 器显式地对局部信息和上下文信息进行建模 (类似
为了解决 RNN 的这些问题,研究者们提出 于对一元、二元,直到 K 元信息进行建模)。卷积输
了深度双向长短时记忆 (Deep bidirectional long 出堆叠在一起,并在时间轴上进行最大池化处理,以
short-term memory, DBLSTM) 的方法来进行语 增加局部稳定性。所有的卷积滤波器步长均设为 1,
声转换 [19−20] ,与传统的基于 DNN 的语声转换 以用于保留原始的时间分辨率。滤波器处理后的序
框架相比,DBLSTM 的应用获得了显著的性能 列进一步传递给几个固定宽度的一维卷积,其输出
提 升 [19] 。CBHG(1-D convolution bank + high- 通过残差连接与原始序列相加。同时将批归一化操
way network + bidirectional gated recurrent unit 作应用于所有的卷积层。接着,卷积输出被送入一
(GRU)) module 最早出现于一个端到端的语声合 个多层的高速公路网络,以提取高层次的特征。最
成系统 Tacotron 中 [21] ,它由一组一维卷积滤波器、 后,序列经过了一个双向门控循环单元,以从前向和
高速公路网络和一个双向门控循环单元 (Bidirec- 后向上下文中提取序列特征。