Page 82 - 《应用声学》2023年第1期
P. 82
78 2023 年 1 月
1.2 情感编码器 出了一种低资源的汉语儿童情感语声合成模型,利
情感编码器由 Skerry-Ryan 等 [23] 在 Tacotron 用迁移学习自适应的方法缩短模型训练时长,并且
语声合成架构的基础上进行的扩展,加入情感嵌入 使得合成语声质量和情感维度得到保证。Tacotron
空间使其能够从包含想要韵律的声学表征中学习 模型的训练基本需要24 h 以上的语料 [1] ,而汉语儿
韵律的隐藏嵌入空间,实现韵律迁移。 童情感语声在语声合成上的资源极其匮乏,因此本
如图 1 所示,模块以长度为 L R 和维度为 d R 的 文将使用自行采集的儿童情感语料库进行实验。
梅尔谱图作为输入,从中计算出维度为 d p 的嵌入向
2.1 数据采集与处理
量,在情感嵌入空间中每一个嵌入向量都对应一种
由于本研究的合成不考虑多说话人,因此录制
情感特征。输入信号经过 6 层卷积神经网络 (Con-
选用单人 8 岁女童在成人引导下的表演型情感语
volutional neural networks, CNN)之后进入到单元
声。语录文本参考由Zhou等 [26] 研发的情感语声数
大小为 128 的一层门控循环单元 (Gated recurrent
据库 (ESD),因儿童的语言表达能力与成人差异较
unit, GRU) 网络 [24] ,通过注意力机制最后输出维
大,从中筛选出 60句左右适合于儿童口语表达的句
度为d p 的情感嵌入向量来表示情感特征。
子。实验证明 8 岁儿童能够清晰地用不同情感表达
ৱਖࢦКՔ᧚ 筛选出的语句。录制的声频包含的4 种情感分别为:
愤怒、开心、伤心和惊讶。所有语声数据都是16 kHz
的样本,并以 16 位保存。考虑实际应用领域中的无
ฌਓҧ҄
法做到纯净的录声环境,达到降低情感语声合成成
本的目的,模拟日常生活中安静的录声环境,对声频
进行简单的剪辑降噪筛选预处理之后,4 种情感录
制声频的总时长约为500 s。
ܸ࠵˞128ᄊGRUᎪፏ
语料库中的文本和声频信息将进一步预处理,
ܸ࠵˞33 ൦᫂˞22 如图 2 所示。首先对文本信息进行韵律标注,本研
6ࡏԄሥᇸፃᎪፏ
究所采用的韵律标注规则严格遵守标贝语料库所
使用的韵律标注规则。汉语的韵律标注包括对文
本进行分词处理以及韵律信息的添加。利用 THU-
LAC(THU Lexical Analyzer for Chinese)工具进行
图 1 情感嵌入空间
分词处理,再根据韵律层级标注规则进行标注,按照
Fig. 1 Emotion embedded space
不同的停顿间隔,向文本中加入韵律信息。
本文学习了汉语端到端语声合成模型以及加 由于汉语与英文合成的差异,需要将原有的汉
入情感编码器的情感语声合成模型,通过迁移学习
语信息转化为拼音格式进行标注 [27] 。本研究使用
的方式将两者结合进行改进。在文献 [25] 中,研究
pypinyin 工具来实现汉字转拼音。pypinyin 是一种
者利用深卷积语声合成 (Deep convolutional TTS,
基于 hotoo/pinyin 开发的可以用于汉字注音、排序
DCTTS) 模型进行低资源语声合成,不同于该方法
和检索工具,是一个准确率较高且较成熟的汉字拼
本文采用序列到序列模型 (seq2seq) 加改进后的注
音转换工具 [21] 。
意力机制形成的语声合成模型,以对情感编码器和
在通过上述操作对文本进行处理之后,将文本
说话人编码器中进行儿童的情感迁移来实现低资
与声频一一对齐。然后对情感语料库中的声频进行
源的汉语儿童情感语声合成。在实验结果中可以看
预处理。对每一段声频信号进行分帧、加窗,再对
到本文的合成效果优于其他先进的低资源情感语
每一帧做快速傅里叶变换 (Fast Fourier transform
声合成方法。
FFT) 处理 [28] ,把每一帧的结果沿另一个维度堆叠
2 低资源情感模型构建 起来,得到二维信号图片形式。通过短时傅里叶
变换(Short-time Fourier transform, STFT)提取出
本 文 的 模 型 在 Tacotron2 模 型 以 及 Skerry- 每一段情感声频的频谱 (spectrogram) 和梅尔频谱
Ryan 等 [23] 的情感编码器的基础上进行构建,提 (Melspectrogram)特征。