Page 80 - 《应用声学》2025年第2期
P. 80
340 2025 年 3 月
and the real-time factor is 0.01, which meets the requirements of real-time application. At the same time, it
has demonstrated a strong level of robustness, with a synthesized word error rate of only 1.02%.
Keywords: Hmong language speech synthesis; Inverse short-time Fourier transform; Inference speed; Residual
encoder
归模型 Tacotron 的解码器中添加一个归一化流来
0 引言
实现从文本直接生成语声波形,但仍然是自回归的。
Nguyen 等 [22] 提出的 Autotts 利用可微持续时长学
文语转换是一种将文本转化为语声 (Text-to-
习对齐信息,联合优化编解码器以提高合成效率。
speech, TTS) 的技术,其赋予了机器开口说话的能
Kim 等 [23] 提出的 VITS 是基于变分推断和对抗学
力,在人机交互领域有着广泛的应用。目前,越来
习的过程,不仅提高了合成的速度,也生成了更高质
越多的研究者倾向于少数民族语言的语声合成研
量的语声。但在将中间隐藏表示解码为语声波形时
究 [1−3] 。苗语作为一种少数民族语言,正面临着逐
采用了大量的转置卷积进行过采样,增加了模型的
渐消亡的问题,使用苗语交流的人越来越少 [4] 。苗
复杂度和推理时间。
语语声合成研究对推动民族文化的发展、促进民族
尽管有许多单阶段的语声合成模型被提出,但
语言的学习教育、保护和传承文化有着重要意义。
大都存在模型复杂度高、演算速度慢的问题。针对
随着深度学习技术的快速发展,语声合成取得
此问题,本文受文献[24]的启发,在VITS [23] 模型的
了很大的成就。基于深度神经网络的 TTS 通常由
基础上提出一种基于短时傅里叶逆变换的苗语语
两阶段构成。第一阶段的声学模型负责将输入文本
声合成方法 (Inverse short-time fourier Transform-
转化为中间声学表示 (梅尔谱图特征) [5−7] ;第二阶
based Hmong language speech synthesis, ITHSS)。
段的声码器负责将声学表示重建为语声波形 [8−10] 。
ITHSS 利用短时傅里叶逆变换 (inverse short-time
虽然现阶段的语声合成方法已经能合成出高保真
Fourier transform, iSTFT)进行语声波形相位和幅
的人类语声,但在实时应用中需要快速生成自然流
度谱的重建,实现从频域到时域的完全转换,从而得
畅的语声,而这些方法拥有上百万的参数,限制了其
到一个有效的苗语语声生成器。假设语声波形生成
在实际场景下的应用。在此背景下,许多研究者对
器中部分过采样模块被 iSTFT 代替能缩减模型规
声学模型和声码器进行不断的改进,提高合成语声
模,使模型在不降低合成语声质量的情况下提高语
质量的同时加快模型的演算速度 [11−14] 。但两阶段
声合成的效率。本文的主要贡献如下:
的 TTS 由于在训练时声码器采用真实的声学表示,
(1) 构 建 了 苗 语 语 声 合 成 语 料 库 Hmong-
而在推理时采用声学模型预测的声学表示,这会存
Speech,为苗语语声合成研究的可行性和其他少
在训练与推理分布的不匹配,导致合成容易出现伪
数民族语言的研究奠定基础。
影 (嘶嘶噪声等),降低了合成语声质量。常用的解
(2) 提出一种适用于苗语的快速语声合成模型,
决方法是通过顺序训练或微调 [15] ,即第一阶段生成
为苗语语声合成语料库的自动构建提供技术支持。
的梅尔谱图用于第二阶段的训练或微调。但这种方
式增加了训练的复杂性和时间,降低了语声合成的 1 背景技术
效率。
对此,众多学者提出单阶段 [16−18] 的完全端到 1.1 VITS介绍
端语声合成方法,这种方法不生成中间声学表示, 两阶段的 TTS 在推理时存在中间声学特征的
直接从输入文本的隐藏表示特征重建为语声,故不 分布不匹配,会使得合成的语声存在伪影,故本文
存在声学特征分布不匹配问题,同时也简化了训练 以单阶段的 VITS 为基础模型 (Baseline)。VITS 采
的过程。Ren 等 [19] 提出的 Fastspeech 2s 是一个真 用变分自编码和归一化流技术,并结合对抗学习的
正意义上的端到端语声合成模型,通过对抗学习方 方式进行训练,以最大化给定文本的条件下语声波
式隐式地学习相位信息,实现语声波形重建的目的; 形的对数似然log p(x|c)为目标函数,在训练时,这
θ
Lim 等 [20] 提出的 JETS 使用一个对齐模块联合训 一过程可以通过最大化其下界来完成,此下界称为
练Fastspeech 2和HiFi-GAN,简化了训练管道的复 变分下界 (Variational low bound, VLB),如式 (1)
杂性;Ron 等 [21] 提出的 Wave-tacotron 通过向自回 所示: