Page 182 - 《应用声学》2023年第3期
P. 182

第 42 卷 第 3 期                                                                       Vol. 42, No. 3
             2023 年 5 月                          Journal of Applied Acoustics                      May, 2023

             ⋄ 研究报告 ⋄



                基于平均模型和误差削减网络的语声转换系统                                                                    ∗






                               王媛媛     1†   王新宇      1   张明阳      2    周 锋    1    赵 力    3


                                             (1 盐城工学院信息工程学院        盐城   224051)
                                         (2 新加坡国立大学电子与计算机工程系          新加坡   117583)
                                            (3 东南大学信息科学与工程学院        南京   210096)

                摘要:现阶段用于语声转换的深度学习方法多是通过使用大量的训练数据来生成高质量的语声。该文提出了
                一种基于平均模型和误差削减网络的语声转换框架,可用于有限数量的训练数据。首先,基于 CBHG 网络的
                平均模型使用排除源说话人和目标说话人的多说话人语声数据进行训练;然后,在有限数量的目标语声数据
                下对平均模型执行自适应训练;最后,提出一种误差削减网络,可以进一步改善转换后语声的质量。实验表明,
                所提出的语声转换框架可以灵活地处理有限的训练数据,并且在客观和主观评估方面均优于传统框架。
                关键词:语声转换;CBHG;平均模型;误差削减网络
                中图法分类号: TN912.3           文献标识码: A          文章编号: 1000-310X(2023)03-0620-07
                DOI: 10.11684/j.issn.1000-310X.2023.03.021





              A voice conversion system based on average model and error reduction network



                     WANG Yuanyuan   1  WANG Xinyu   1   ZANG Mingyang   2  ZHOU Feng   1  ZHAO Li  3

                        (1 School of Information Technology, Yancheng Institute of Technology, Yancheng 224051, China)
                (2 Department of Electrical and Computer Engineering, National University of Singapore, Singapore 117583, Singapore)
                         (3 School of Information Science and Engineering, Southeast University, Nanjing 210096, China)

                 Abstract: So far, many of the deep learning approaches for voice conversion produce good quality speech by
                 using a large amount of training data. This paper presents an average model and error reduction network-based
                 voice conversion framework that can work with a limited amount of training data. We propose to implement
                 a CBHG based average model that is trained with data from many speakers excluding source and target
                 speakers; then, we propose to perform adaptation with a limited amount of target data; last, we propose an
                 error reduction network that can improve the voice conversion quality even further. The experiments show
                 that the proposed voice conversion framework is flexible to work with limited training data and outperforms
                 the traditional frameworks in both objective and subjective evaluations.
                 Keywords: Voice conversion; CBHG; Average model; Error reduction network



             2022-02-16 收稿; 2022-05-06 定稿
             国家自然科学基金项目 (61673108, 62076215), 江苏省高等学校自然科学研究重大项目 (19KJA110002)
             ∗
             作者简介: 王媛媛 (1982– ), 女, 辽宁瓦房店人, 硕士, 讲师, 研究方向: 信号与信息处理。
             † 通信作者 E-mail: wyy@ycit.edu.cn
   177   178   179   180   181   182   183   184   185   186   187