Page 83 - 《应用声学》2023年第1期
P. 83

第 42 卷 第 1 期                     胡航烨等: 汉语儿童情感语声合成                                            79


                                               Ѭឈܫေ            的特征迁移。
                                  ᮄ॥ಖฌ                             类似于多说话人的情感语声合成,理想状态下,
                  ஡వηৌ                         ᮄ॥ηৌ            利用低维级的说话人嵌入向量可以实现低资源的

                     ʷ           ஡ߚᣁૃᮃ                         语声合成,而在文献 [31] 中利用 Tacotron 模型进行
                     ʷ
                     ࠫ                                         多说话人语声合成时发现 Tacotron 模型的性能高
                     ᴏ
                                    Ѭࣝҫቔ                       度依赖模型的超参数,利用小数据集进行训练时无
                  ܦᮠηՂ                    Ϭ᧗Ձԫ૱                法进行注意力机制的学习。因此本文在不考虑多说
                                   ̄፥ηՂڏ                       话人语声合成的条件下,将ESD情感语料库中单人
                                          ᆁ௑Ϭ᧗Ձԫ૱              女性的 4种情感语声中的说话人的相关参数存储在
                                    ଢԩྲढ़                       低维向量中,在行儿童特征迁移时,儿童的嵌入向量
                                                               可以共享几乎全部的权重,解决了 Tacotron模型的
                           图 2  文本声频预处理
                                                               性能高度依赖模型的超参数的问题。成人情感语料
                    Fig. 2 Text and audio preprocessing
                                                               选择成年女性作为说话者,其目的是接近儿童的韵
             2.2 特征迁移                                          律特征    [3] 。

                 特征迁移的目的是减少在汉语儿童情感语声                               如图4所示,进行儿童特征的迁移,首先将儿童
             合成上其所需的数据量以及缩短模型的训练时                              情感语声进行数据预处理,分情感输入进不同的成
             间  [29] 。迁移学习方法是将已有的知识对于不同但                       人情感模型,然后通过情感编码器以及说话人编码
             是相关领域的问题进行一系列求解的新型机器学                             器,实现情感特征与说话特征的迁移,再进行多头注
             习方法   [30] 。文献 [25] 中研究者对利用低资源进行                  意力机制学习,最终得到不同情感的汉语儿童语声
             迁移学习实现情感语声合成模型的可能性进行探                             合成模型。
             究,在DCTTS合成模型上具有较好的适应性。而针
                                                                            ৱਖᎄᆊ٨
             对本文所研究的汉语儿童情感语声合成,为解决汉                             Јቨৱਖ
                                                                 ឦநः                      ܳ݀ฌਓҧ఻҄      ᝍᆊ٨
             语韵律复杂的问题         [22] ,采用其迁移学习的方法,在                            ឭភ̡ᎄᆊ٨
             构建了多头注意力机制的 Tacotron2 模型上,加入
                                                                            图 4  儿童特征迁移过程
             情感编码器以及说话人编码器进行儿童情感特征
                                                                    Fig. 4 Transfer of children’s characteristics
             的迁移。
                 而由于儿童的情感特征与成人相差较大,不同                          2.3  模型框架
             情感均有明显的变化。图 3 为在基频上成人与儿童                              本文构建的低资源儿童情感语声合成模型如
             不同情感上的差异(单位:Hz)。
                                                               图 5 所示。对文本进行预处理之后输入模型,最后
                 儿童的其他韵律特征随着情感的不同变化也
                                                               以wav声频格式输出。
             较大,因此在基于成人的情感语声合成上,对模型的                               为解决汉语韵律复杂的问题,文本编码器利用
             情感编码器以及说话人编码器进一步进行自适应                             标贝科技开源的汉语中性语料库进行预训练,该语

                                                               料库时长约为 12 h,从而降低耦合形成汉语语声合
                                           312.3149
              ৳ᝳ                                378.9768       成模型对得到的模型权重等信息进行保存。在此
                                         285.3278              基础上进行训练,降低其训练的时间成本。再利用
              ͞ॷ                          305.6194
                                                               ESD 成人汉语情感语料库进行模型自适应的训练,
                                            324.2574
              नॷ                                    418.1583
                                                               使用单人 4 种情感语料时长约为1 h,在成人汉语情
                                           310.4969
              ਙড                                   413.3312    感语声合成模型的基础上进行特征迁移,如 2.2 节
                 0   50  100  150  200  250  300  350  400  450  中所示,其儿童情感语声数据约为 500 s,实验数据
                               ੇ̡     Јቨ                       非常小,训练时长花费约为 36 h 时模型得到收敛,

                     图 3  儿童与成人不同情感基频对比                        能合成出自然度以及情感度较好的语声。
                Fig. 3 Comparison of different emotion funda-       模型的后处理网络基于 Griffin-Lim 算法                [32] ,
                mental frequencies between children and adults  在后处理网络中添加 CBHG模块(其中CB表示1D
   78   79   80   81   82   83   84   85   86   87   88