Page 81 - 《应用声学》2023年第1期
P. 81

第 42 卷 第 1 期                     胡航烨等: 汉语儿童情感语声合成                                            77


                                                               文献[19]中研究者利用语声转换技术实现数据增强
             0 引言                                              的低资源情感语声合成。

                                                                   本文基于以上研究者的工作提出利用迁移学
                 情感语声合成技术作为近年来人机交互的热
                                                               习以及给定情感标签的有监督学习方式实现低资
             点问题受到越来越多研究者的关注。当情感语声合
                                                               源的儿童情感语声合成,包括3 个阶段,分别为汉语
             成技术应用至儿童的情感交互中时,会更关注到儿
                                                               语声合成模型的建立、情感嵌入空间和儿童特征迁
             童情感的变化以及与成人不同的韵律特征。随着
                                                               移阶段。主要工作如下:(1) 建立了包含 4 种情感的
             年龄的增长,儿童的韵律特征在说话速率、音高基
                                                               儿童离散型情感语料库;(2) 用迁移学习的方式实
             频、共振峰方面都具有明显的变化                [1]  研究表明,儿
                                                               现低资源的儿童情感语声合成。
             童的韵律特征相比较于成人的韵律特征具有更高
             的可变性    [2] ,并且根据对儿童定向言语的调查可以
             发现儿童对韵律变化明显的语声更感兴趣                    [3] 。因此     1 相关技术
             当情感语声合成技术应用至儿童情感交互中时,会
             更偏向于使用具有儿童本身韵律的情感语声。然而                            1.1  汉语语声合成模型
             现阶段的情感语声合成技术大多基于高质量的情                                 汉 语 语 声 合 成 模 型 基 于 Google 的 Brain 团
             感语料,儿童情感语料库匮乏,其主要原因包含两                            队 [20]  在 2017 年提出来的 Tacotron2 模型。该模型
             点:(1) 儿童单一情感语声采集困难,不便于控制建                         由 3 部分组成,一个引入了注意力机制的基于循
             立离散型的情感模型;(2) 在儿童的情感语声中其                          环的 seq2seq 特征预测网络,一个基于 WaveNet 修
             韵律变化范围十分广泛,建模难度较大。因此本文                            改版的声码器以及一个利用梅尔频率声谱图的连
             研究的低资源的儿童情感语声合成对于目前人机                             接层。
             交互中日益增长的情感需求来说具有极其重要的                                 汉语语声合成与英文语声合成相比较而言存
             意义。                                               在一定的困难,如韵律较为复杂、存在多音字及变调
                 儿童情感语声合成技术的发展可以追溯到传                           音等问题。针对这些问题,不少研究者对Tacotron2
             统的基于隐马尔可夫模型 (Hidden Markov model,                 模型进行了改进,如对预训练模块、注意力机制、停
             HMM) 的 统 计 参 数 语 声 合 成 时 代       [4−7] 。Ström-    止符预测等      [21] 。
             bergsson 等  [8]  的研究介绍了一种通过串联不同说                      为了解决中文较为复杂的韵律变化问题,文
             话人的语声来分段重新合成儿童语声的新颖方法。                            献[22] 将位置敏感的注意力(Location-sensitive att
             而随着深度神经网络的广泛应用               [9−11] ,情感语声合        ention) 扩展为多头位置注意力机制 (Multi head
             成已经发展到多种解决方案,加入变分自动编码器                            location-sensitive attention),即
             (VAE) 以非监督的方式学习复杂的分布,从而得到
                                                                                                      F
                                                                                              S
             大量不同数据       [12] ;Li 等  [13]  的研究利用成人演绎的           head i = Attention(HW i H  + SW + FW ), (1)
                                                                                                     i
                                                                                              i
             大量儿童情感语声,使用基于序列到序列 (seq2seq)
                                                               式(1) 中,H 是编码器的输出,S 代表解码器的输出,
             的 Tacotron,在编码器之前以及解码器输出之后分
                                                               F 为累加的注意力权重,而W 、W 、W 作为待训
                                                                                              S
                                                                                                   F
                                                                                         H
             别插入情感分类器,以增强情感嵌入和预测梅尔谱                                                      i    i    i
                                                               练的一系列参数,其子注意力模块的权重是不共享
             的情感识别能力,实现可控的儿童情感语声合成。
                                                               的。多头注意力输出表示为
             针对儿童情感语声合成现阶段存在的问题,低资源
             语声合成方法包括迁移学习              [14] 、微调和多任务学                  MultiHead(S, H, F)
             习  [15]  等技术,在低资源的各种应用中被证明是有                                                             o
                                                                    = concat(head 1 , head 2 , · · · , head h )W ,  (2)
             用的。例如在文献 [16] 中,研究者成功地将知识从
                                                                       o
             一个被训练来区分说话人的模型转移到一个多说                             其中,W 为待训练的参数。多头注意力机制将 S、
             话人 TTS 模型。文献 [17] 中使用基于微调的说话                      H、F 通过矩阵映射再进行 Attention 运算,通过
             人自适应方法,用于利用低资源的数据构建TTS模                           Attention 运算之后再把多个子注意力的结果进行
             型。文献 [18] 中修改了 Tacotron的结构来合成给定                   拼接,使得解码器在预测声频时,字和字之间的衔接
             情感标签的语声来实现低资源化的情感语声合成。                            部分,整个句子的韵律变化会更加接近于真实人声。
   76   77   78   79   80   81   82   83   84   85   86