Page 82 - 《应用声学》2023年第1期
P. 82

78                                                                                   2023 年 1 月


             1.2 情感编码器                                         出了一种低资源的汉语儿童情感语声合成模型,利
                 情感编码器由 Skerry-Ryan 等        [23]  在 Tacotron  用迁移学习自适应的方法缩短模型训练时长,并且
             语声合成架构的基础上进行的扩展,加入情感嵌入                            使得合成语声质量和情感维度得到保证。Tacotron
             空间使其能够从包含想要韵律的声学表征中学习                             模型的训练基本需要24 h 以上的语料               [1] ,而汉语儿
             韵律的隐藏嵌入空间,实现韵律迁移。                                 童情感语声在语声合成上的资源极其匮乏,因此本
                 如图 1 所示,模块以长度为 L R 和维度为 d R 的                 文将使用自行采集的儿童情感语料库进行实验。
             梅尔谱图作为输入,从中计算出维度为 d p 的嵌入向
                                                               2.1  数据采集与处理
             量,在情感嵌入空间中每一个嵌入向量都对应一种
                                                                   由于本研究的合成不考虑多说话人,因此录制
             情感特征。输入信号经过 6 层卷积神经网络 (Con-
                                                               选用单人 8 岁女童在成人引导下的表演型情感语
             volutional neural networks, CNN)之后进入到单元
                                                               声。语录文本参考由Zhou等            [26]  研发的情感语声数
             大小为 128 的一层门控循环单元 (Gated recurrent
                                                               据库 (ESD),因儿童的语言表达能力与成人差异较
             unit, GRU) 网络  [24] ,通过注意力机制最后输出维
                                                               大,从中筛选出 60句左右适合于儿童口语表达的句
             度为d p 的情感嵌入向量来表示情感特征。
                                                               子。实验证明 8 岁儿童能够清晰地用不同情感表达
                               ৱਖࢦКՔ᧚                          筛选出的语句。录制的声频包含的4 种情感分别为:
                                                               愤怒、开心、伤心和惊讶。所有语声数据都是16 kHz
                                                               的样本,并以 16 位保存。考虑实际应用领域中的无
                                ฌਓҧ఻҄
                                                               法做到纯净的录声环境,达到降低情感语声合成成
                                                               本的目的,模拟日常生活中安静的录声环境,对声频
                                                               进行简单的剪辑降噪筛选预处理之后,4 种情感录
                                                               制声频的总时长约为500 s。
                            ܸ࠵˞128ᄊGRUᎪፏ
                                                                   语料库中的文本和声频信息将进一步预处理,
                            ܸ࠵˞3€3  ൦᫂˞2€2                     如图 2 所示。首先对文本信息进行韵律标注,本研
                              6ࡏԄሥᇸፃᎪፏ
                                                               究所采用的韵律标注规则严格遵守标贝语料库所
                                                               使用的韵律标注规则。汉语的韵律标注包括对文
                                                               本进行分词处理以及韵律信息的添加。利用 THU-
                                                               LAC(THU Lexical Analyzer for Chinese)工具进行
                            图 1  情感嵌入空间
                                                               分词处理,再根据韵律层级标注规则进行标注,按照
                      Fig. 1 Emotion embedded space
                                                               不同的停顿间隔,向文本中加入韵律信息。
                 本文学习了汉语端到端语声合成模型以及加                               由于汉语与英文合成的差异,需要将原有的汉
             入情感编码器的情感语声合成模型,通过迁移学习
                                                               语信息转化为拼音格式进行标注                 [27] 。本研究使用
             的方式将两者结合进行改进。在文献 [25] 中,研究
                                                               pypinyin 工具来实现汉字转拼音。pypinyin 是一种
             者利用深卷积语声合成 (Deep convolutional TTS,
                                                               基于 hotoo/pinyin 开发的可以用于汉字注音、排序
             DCTTS) 模型进行低资源语声合成,不同于该方法
                                                               和检索工具,是一个准确率较高且较成熟的汉字拼
             本文采用序列到序列模型 (seq2seq) 加改进后的注
                                                               音转换工具      [21] 。
             意力机制形成的语声合成模型,以对情感编码器和
                                                                   在通过上述操作对文本进行处理之后,将文本
             说话人编码器中进行儿童的情感迁移来实现低资
                                                               与声频一一对齐。然后对情感语料库中的声频进行
             源的汉语儿童情感语声合成。在实验结果中可以看
                                                               预处理。对每一段声频信号进行分帧、加窗,再对
             到本文的合成效果优于其他先进的低资源情感语
                                                               每一帧做快速傅里叶变换 (Fast Fourier transform
             声合成方法。
                                                               FFT) 处理   [28] ,把每一帧的结果沿另一个维度堆叠
             2 低资源情感模型构建                                       起来,得到二维信号图片形式。通过短时傅里叶
                                                               变换(Short-time Fourier transform, STFT)提取出
                 本 文 的 模 型 在 Tacotron2 模 型 以 及 Skerry-         每一段情感声频的频谱 (spectrogram) 和梅尔频谱
             Ryan 等 [23]  的情感编码器的基础上进行构建,提                     (Melspectrogram)特征。
   77   78   79   80   81   82   83   84   85   86   87