Page 80 - 《应用声学》2025年第2期
P. 80

340                                                                                  2025 年 3 月


                 and the real-time factor is 0.01, which meets the requirements of real-time application. At the same time, it
                 has demonstrated a strong level of robustness, with a synthesized word error rate of only 1.02%.
                 Keywords: Hmong language speech synthesis; Inverse short-time Fourier transform; Inference speed; Residual
                 encoder

                                                               归模型 Tacotron 的解码器中添加一个归一化流来
             0 引言
                                                               实现从文本直接生成语声波形,但仍然是自回归的。
                                                               Nguyen 等  [22]  提出的 Autotts 利用可微持续时长学
                 文语转换是一种将文本转化为语声 (Text-to-
                                                               习对齐信息,联合优化编解码器以提高合成效率。
             speech, TTS) 的技术,其赋予了机器开口说话的能
                                                               Kim 等  [23]  提出的 VITS 是基于变分推断和对抗学
             力,在人机交互领域有着广泛的应用。目前,越来
                                                               习的过程,不仅提高了合成的速度,也生成了更高质
             越多的研究者倾向于少数民族语言的语声合成研
                                                               量的语声。但在将中间隐藏表示解码为语声波形时
             究  [1−3] 。苗语作为一种少数民族语言,正面临着逐
                                                               采用了大量的转置卷积进行过采样,增加了模型的
             渐消亡的问题,使用苗语交流的人越来越少                     [4] 。苗
                                                               复杂度和推理时间。
             语语声合成研究对推动民族文化的发展、促进民族
                                                                   尽管有许多单阶段的语声合成模型被提出,但
             语言的学习教育、保护和传承文化有着重要意义。
                                                               大都存在模型复杂度高、演算速度慢的问题。针对
                 随着深度学习技术的快速发展,语声合成取得
                                                               此问题,本文受文献[24]的启发,在VITS               [23]  模型的
             了很大的成就。基于深度神经网络的 TTS 通常由
                                                               基础上提出一种基于短时傅里叶逆变换的苗语语
             两阶段构成。第一阶段的声学模型负责将输入文本
                                                               声合成方法 (Inverse short-time fourier Transform-
             转化为中间声学表示 (梅尔谱图特征)                [5−7] ;第二阶
                                                               based Hmong language speech synthesis, ITHSS)。
             段的声码器负责将声学表示重建为语声波形                     [8−10] 。
                                                               ITHSS 利用短时傅里叶逆变换 (inverse short-time
             虽然现阶段的语声合成方法已经能合成出高保真
                                                               Fourier transform, iSTFT)进行语声波形相位和幅
             的人类语声,但在实时应用中需要快速生成自然流
                                                               度谱的重建,实现从频域到时域的完全转换,从而得
             畅的语声,而这些方法拥有上百万的参数,限制了其
                                                               到一个有效的苗语语声生成器。假设语声波形生成
             在实际场景下的应用。在此背景下,许多研究者对
                                                               器中部分过采样模块被 iSTFT 代替能缩减模型规
             声学模型和声码器进行不断的改进,提高合成语声
                                                               模,使模型在不降低合成语声质量的情况下提高语
             质量的同时加快模型的演算速度                [11−14] 。但两阶段
                                                               声合成的效率。本文的主要贡献如下:
             的 TTS 由于在训练时声码器采用真实的声学表示,
                                                                   (1) 构 建 了 苗 语 语 声 合 成 语 料 库 Hmong-
             而在推理时采用声学模型预测的声学表示,这会存
                                                               Speech,为苗语语声合成研究的可行性和其他少
             在训练与推理分布的不匹配,导致合成容易出现伪
                                                               数民族语言的研究奠定基础。
             影 (嘶嘶噪声等),降低了合成语声质量。常用的解
                                                                   (2) 提出一种适用于苗语的快速语声合成模型,
             决方法是通过顺序训练或微调              [15] ,即第一阶段生成
                                                               为苗语语声合成语料库的自动构建提供技术支持。
             的梅尔谱图用于第二阶段的训练或微调。但这种方
             式增加了训练的复杂性和时间,降低了语声合成的                            1 背景技术
             效率。
                 对此,众多学者提出单阶段             [16−18]  的完全端到       1.1  VITS介绍
             端语声合成方法,这种方法不生成中间声学表示,                                两阶段的 TTS 在推理时存在中间声学特征的
             直接从输入文本的隐藏表示特征重建为语声,故不                            分布不匹配,会使得合成的语声存在伪影,故本文
             存在声学特征分布不匹配问题,同时也简化了训练                            以单阶段的 VITS 为基础模型 (Baseline)。VITS 采
             的过程。Ren 等     [19]  提出的 Fastspeech 2s 是一个真        用变分自编码和归一化流技术,并结合对抗学习的
             正意义上的端到端语声合成模型,通过对抗学习方                            方式进行训练,以最大化给定文本的条件下语声波
             式隐式地学习相位信息,实现语声波形重建的目的;                           形的对数似然log p(x|c)为目标函数,在训练时,这
                                                                               θ
             Lim 等  [20]  提出的 JETS 使用一个对齐模块联合训                 一过程可以通过最大化其下界来完成,此下界称为
             练Fastspeech 2和HiFi-GAN,简化了训练管道的复                  变分下界 (Variational low bound, VLB),如式 (1)
             杂性;Ron 等    [21]  提出的 Wave-tacotron 通过向自回         所示:
   75   76   77   78   79   80   81   82   83   84   85