Page 81 - 《应用声学》2023年第1期
P. 81
第 42 卷 第 1 期 胡航烨等: 汉语儿童情感语声合成 77
文献[19]中研究者利用语声转换技术实现数据增强
0 引言 的低资源情感语声合成。
本文基于以上研究者的工作提出利用迁移学
情感语声合成技术作为近年来人机交互的热
习以及给定情感标签的有监督学习方式实现低资
点问题受到越来越多研究者的关注。当情感语声合
源的儿童情感语声合成,包括3 个阶段,分别为汉语
成技术应用至儿童的情感交互中时,会更关注到儿
语声合成模型的建立、情感嵌入空间和儿童特征迁
童情感的变化以及与成人不同的韵律特征。随着
移阶段。主要工作如下:(1) 建立了包含 4 种情感的
年龄的增长,儿童的韵律特征在说话速率、音高基
儿童离散型情感语料库;(2) 用迁移学习的方式实
频、共振峰方面都具有明显的变化 [1] 研究表明,儿
现低资源的儿童情感语声合成。
童的韵律特征相比较于成人的韵律特征具有更高
的可变性 [2] ,并且根据对儿童定向言语的调查可以
发现儿童对韵律变化明显的语声更感兴趣 [3] 。因此 1 相关技术
当情感语声合成技术应用至儿童情感交互中时,会
更偏向于使用具有儿童本身韵律的情感语声。然而 1.1 汉语语声合成模型
现阶段的情感语声合成技术大多基于高质量的情 汉 语 语 声 合 成 模 型 基 于 Google 的 Brain 团
感语料,儿童情感语料库匮乏,其主要原因包含两 队 [20] 在 2017 年提出来的 Tacotron2 模型。该模型
点:(1) 儿童单一情感语声采集困难,不便于控制建 由 3 部分组成,一个引入了注意力机制的基于循
立离散型的情感模型;(2) 在儿童的情感语声中其 环的 seq2seq 特征预测网络,一个基于 WaveNet 修
韵律变化范围十分广泛,建模难度较大。因此本文 改版的声码器以及一个利用梅尔频率声谱图的连
研究的低资源的儿童情感语声合成对于目前人机 接层。
交互中日益增长的情感需求来说具有极其重要的 汉语语声合成与英文语声合成相比较而言存
意义。 在一定的困难,如韵律较为复杂、存在多音字及变调
儿童情感语声合成技术的发展可以追溯到传 音等问题。针对这些问题,不少研究者对Tacotron2
统的基于隐马尔可夫模型 (Hidden Markov model, 模型进行了改进,如对预训练模块、注意力机制、停
HMM) 的 统 计 参 数 语 声 合 成 时 代 [4−7] 。Ström- 止符预测等 [21] 。
bergsson 等 [8] 的研究介绍了一种通过串联不同说 为了解决中文较为复杂的韵律变化问题,文
话人的语声来分段重新合成儿童语声的新颖方法。 献[22] 将位置敏感的注意力(Location-sensitive att
而随着深度神经网络的广泛应用 [9−11] ,情感语声合 ention) 扩展为多头位置注意力机制 (Multi head
成已经发展到多种解决方案,加入变分自动编码器 location-sensitive attention),即
(VAE) 以非监督的方式学习复杂的分布,从而得到
F
S
大量不同数据 [12] ;Li 等 [13] 的研究利用成人演绎的 head i = Attention(HW i H + SW + FW ), (1)
i
i
大量儿童情感语声,使用基于序列到序列 (seq2seq)
式(1) 中,H 是编码器的输出,S 代表解码器的输出,
的 Tacotron,在编码器之前以及解码器输出之后分
F 为累加的注意力权重,而W 、W 、W 作为待训
S
F
H
别插入情感分类器,以增强情感嵌入和预测梅尔谱 i i i
练的一系列参数,其子注意力模块的权重是不共享
的情感识别能力,实现可控的儿童情感语声合成。
的。多头注意力输出表示为
针对儿童情感语声合成现阶段存在的问题,低资源
语声合成方法包括迁移学习 [14] 、微调和多任务学 MultiHead(S, H, F)
习 [15] 等技术,在低资源的各种应用中被证明是有 o
= concat(head 1 , head 2 , · · · , head h )W , (2)
用的。例如在文献 [16] 中,研究者成功地将知识从
o
一个被训练来区分说话人的模型转移到一个多说 其中,W 为待训练的参数。多头注意力机制将 S、
话人 TTS 模型。文献 [17] 中使用基于微调的说话 H、F 通过矩阵映射再进行 Attention 运算,通过
人自适应方法,用于利用低资源的数据构建TTS模 Attention 运算之后再把多个子注意力的结果进行
型。文献 [18] 中修改了 Tacotron的结构来合成给定 拼接,使得解码器在预测声频时,字和字之间的衔接
情感标签的语声来实现低资源化的情感语声合成。 部分,整个句子的韵律变化会更加接近于真实人声。