Page 183 - 《应用声学》2023年第3期
P. 183

第 42 卷 第 3 期            王媛媛等: 基于平均模型和误差削减网络的语声转换系统                                          621


                                                               tional gated recurrent unit, BiGRU) 组成。CBHG
             0 引言
                                                               网络可以更好地对序列数据处理,提取序列信息。
                 语声转换是一种修改源说话人的语声,使其                               虽然这些基于深度学习的语声转换框架可以
             听起来像目标说话人的技术。语声转换技术已被                             实现很好的语声转换性能,但仍然存在对大量训练
             成功应用于许多领域中,如文本到语声系统 (Text-                        数据的依赖性问题。而对于语声转换任务来说,在
             to-Speech,TTS) 、说话人去识别化           [2]  和言语辅       实际应用时大量数据通常是很难获取的,只能采用
                            [1]
             助  [3] 。                                          有限的数据。剩下的问题就是如何找到一种方法,
                 语声转换可以被描述为估计源特征和目标特                           使有限的数据得到很好的利用。与以往的研究不
             征之间映射函数的回归问题。研究者们已经提出                             同,本文利用 CBHG 这一强大的深度学习框架,提
             了许多成功的语声转换方法,如高斯混合模型的方                            出了一种在有限的平行数据条件下能够产生高质
             法  [4−5] ,它是基于频谱参数轨迹的最大似然估计。                      量语声的语声转换框架。具体来说,本文做出了以
             动态内核偏最小二乘法            [6]  将内核变换集成到偏最             下贡献:(1) 由于 CBHG 网络可以通过对语声语句
             小二乘法中,以对非线性转换关系进行建模以及                             的长时依赖性进行建模来实现高性能的语声转换,
             捕捉数据中的动态特性。稀疏表示方法                    [7−8]  可以    本文利用多说话人的数据建立了一个基于 CBHG
             看作是一种数据驱动的非参数化方法,作为传统的                            的平均模型。(2) 由于基于 CBHG 的平均模型可以
             参数化语声转换方法的替代。基于频率弯曲的方                             很容易地用少量数据进行自适应,本文利用有限的
             法  [9−10]  旨在改变源频谱的频率轴,使其接近目标                     目标数据对基于 CBHG 的平均模型进行自适应训
             频谱。此外,还有一些语声转换的后置滤波器方法                            练,以实现转换后的声音接近于目标声音。(3) 误差
             来提高语声质量        [11] 。                             削减网络只需要用少量的源和目标的平行训练数
                 近年来,深度学习方法在语声转换领域开始流                          据进行训练,所以本文提出了一个应用于自适应的

             行。例如,基于深度神经网络(Deep neural network,                CBHG 网络的误差削减网络,可以进一步提高语声
             DNN)的方法     [12−14]  研究了平行训练数据条件下的                转换质量。总的来说,本文提出了一种基于平均模
             频谱转换,通过使用大量的平行训练数据来实现高                            型和误差削减网络的语声转换框架,可以用少量的
             质量的语声转换。此外,关于变分自动编码器方法                            训练数据产生高质量的语声。
             的研究   [15] ,有效提高了语声转换的性能。
                 上述语声转换框架将每帧的频谱特征视为独                           1 基于CBHG网络的语声转换
             立的特征,并不关注语声序列所特有的长时依赖性。
             标准的递归神经网络 (Recurrent neural network,                  CBHG 网络用于更好地从序列数据中提取上
             RNN) 可以用来解决这个问题            [16−17] ,但由于 RNN       下文信息,模型结构如图 1 所示。输入序列首先与
             存在梯度消失的问题          [18] ,限制了其在上下文信息建              K 个一维卷积滤波器进行卷积,其中第 k 个卷积滤
             模方面的能力。此外,标准的RNN 只能捕获前向序                          波器的卷积宽度为 k (k = 1, 2, · · · , K)。这些滤波
             列的信息,而忽略了后向序列的信息。                                 器显式地对局部信息和上下文信息进行建模 (类似
                 为了解决 RNN 的这些问题,研究者们提出                         于对一元、二元,直到 K 元信息进行建模)。卷积输
             了深度双向长短时记忆 (Deep bidirectional long               出堆叠在一起,并在时间轴上进行最大池化处理,以
             short-term memory, DBLSTM) 的方法来进行语                增加局部稳定性。所有的卷积滤波器步长均设为 1,
             声转换    [19−20] ,与传统的基于 DNN 的语声转换                  以用于保留原始的时间分辨率。滤波器处理后的序
             框架相比,DBLSTM 的应用获得了显著的性能                           列进一步传递给几个固定宽度的一维卷积,其输出
             提 升  [19] 。CBHG(1-D convolution bank + high-      通过残差连接与原始序列相加。同时将批归一化操
             way network + bidirectional gated recurrent unit  作应用于所有的卷积层。接着,卷积输出被送入一
             (GRU)) module 最早出现于一个端到端的语声合                      个多层的高速公路网络,以提取高层次的特征。最
             成系统 Tacotron 中   [21] ,它由一组一维卷积滤波器、               后,序列经过了一个双向门控循环单元,以从前向和
             高速公路网络和一个双向门控循环单元 (Bidirec-                       后向上下文中提取序列特征。
   178   179   180   181   182   183   184   185   186   187   188