Page 83 - 《应用声学》2025年第2期

P. 83

第 44 卷第 2 期蔡姗等：短时傅里叶逆变换的苗语语声合成方法 343

HmongSpeech 数据集的基本统计情况如表 1 表 2 苗语的声韵母
所示。整个数据集包含 4650 个句子，总的字符数为 Table 2 Vocal vowels of Hmong language
120326 个，平均每个句子的字符数为 26 个，最长句
声母
子的字符数为 74 个，最短句子的字符数为 9 个；对
b, p, m, hm, f, hf, w, d, t, n, hn, dl, hl, l, z, c,
于音节基元，总的音节个数为 32888，平均每个句子 s, hs, r, j, q, x, hx, y, g, k, ng, v, hv, gh, kh, h
的音节个数为 7，最长和最短句子的音节个数分别韵母
为18 和 3；子音节基元的总个数为 61510，每个句子 i, e, a, o, u, ai, ei, ia, io, ie, iu, ang, en, ong, in,
iang, iong, ee, ao, iee, iao, ui, ua, uai, un, uang
的平均、最大和最小子音节个数分别为 13、35 和 5。
最终统计词汇量为1156个，子音节集合个数为 195。表 3 苗语的声调
从子音节这个基本发音单元来看，数据集覆盖的苗 Table 3 Tones of Hmong language
语发音现象较为全面，分别从声母、韵母和声调的
调类 1 2 3 4 5 6 7 8
囊括情况来体现，这是苗语发音的基本组成单元。
调值 33 55 35 11 44 13 53 31
表 1 HmongSpeech 数据集的统计信息调符 b x d l t s k f
Table 1 Statistical information of Hmong 例词 dab dax dad dal dat das dak daf
text corpus 译文回答来长短丢失早晨死膀搭

分类统计 3.1.2 模型配置
总句子 4650 残差编码器由 6 个带有 2 个注意力头的 Trans-
总字符数 120326 former块构成，嵌入维度为 192，卷积滤波器大小为
平均每个句子的字符数 26 768，卷积核大小为 3，dropout 为 0.1。标准化流由 4
字符
最长句子的字符数 74 个仿射耦合层堆叠而成，每个仿射耦合层包含 4 个
最短句子的字符数 9
WaveNet 残差块。后验编码器由 16 个 WaveNet 残
总音节数 32888 差块组成，对于其输入线性谱由 1024 帧长 (window
平均每个句子的音节数 7 size)和256帧移(hop length)的STFT计算而得。解
音节
最长句子的音节数 18
码器由 2 个过采样残差块、1 个卷积层和 iSTFT 层
最短句子的音节数 3
构成。
总子音节数 61510
本文比较了所提模型与典型的两阶段 Taco-
平均每个句子的子音节数 13 [27] [6]
子音节 tron2 +HiFi-GAN、Glow-TTS +HiFi-GAN 模
最长句子的子音节数 35 [23]
型和单阶段VITS 模型。由于这些模型最初是为
最短句子的子音节数 5
英语设计的，故都使用 HmubSpeech从头训练模型，
不重复音节 1156
并以子音节作为输入。文中所有实验在Linux设备，
不重复子音节 195
使用2 NVIDIA V100 GPUs进行训练，样本批次大
本文的研究对象为中部苗语，以黔东南州凯里小为 32。使用参数为 β 1 = 0.8、β 2 = 0.99、ε = 10 −9
的 Adam优化器对模型进行优化。模型均被训练至
市养蒿村苗语为标准音。历史上，苗族没有本族文
收敛，共208k 步。
字，现代苗文是一种以拉丁字符为基础的拼音型文
字，拼写方式为 “声母 + 韵母 + 声调”。这种拼音系 3.1.3 评估指标
统使用了英语的 26 个拉丁字母和一些特有的组合本文从主观和客观两个方面评估 ITHSS 方法
符号，用于表示苗语的音节。如表 2 和表 3 所示，中的合成性能，并与基线方法进行比较。
部苗语共有 32 个声母、26 个韵母和 8 个声调。声调 (1) 主观指标
的作用是区分词意，不同的声调有不同的含义。苗语声合成中常用的主观评价指标为平均意见
语是一种带声调的单音节语言，将音节拆分后得到得分 (Mean opinion score, MOS)，即测试者根据自
的声母、韵母 + 声调称为子音节，这种子音节的输己的听觉感受来对被测语声样例的整体质量进行
入方式有助于模型学习苗语的声调信息 [26] 。打分。MOS 是一种分级判断指标，采取５个级别对

78 79 80 81 82 83 84 85 86 87 88