Page 83 - 《应用声学》2025年第2期
P. 83
第 44 卷 第 2 期 蔡姗等: 短时傅里叶逆变换的苗语语声合成方法 343
HmongSpeech 数据集的基本统计情况如表 1 表 2 苗语的声韵母
所示。整个数据集包含 4650 个句子,总的字符数为 Table 2 Vocal vowels of Hmong language
120326 个,平均每个句子的字符数为 26 个,最长句
声母
子的字符数为 74 个,最短句子的字符数为 9 个;对
b, p, m, hm, f, hf, w, d, t, n, hn, dl, hl, l, z, c,
于音节基元,总的音节个数为 32888,平均每个句子 s, hs, r, j, q, x, hx, y, g, k, ng, v, hv, gh, kh, h
的音节个数为 7,最长和最短句子的音节个数分别 韵母
为18 和 3;子音节基元的总个数为 61510,每个句子 i, e, a, o, u, ai, ei, ia, io, ie, iu, ang, en, ong, in,
iang, iong, ee, ao, iee, iao, ui, ua, uai, un, uang
的平均、最大和最小子音节个数分别为 13、35 和 5。
最终统计词汇量为1156个,子音节集合个数为 195。 表 3 苗语的声调
从子音节这个基本发音单元来看,数据集覆盖的苗 Table 3 Tones of Hmong language
语发音现象较为全面,分别从声母、韵母和声调的
调类 1 2 3 4 5 6 7 8
囊括情况来体现,这是苗语发音的基本组成单元。
调值 33 55 35 11 44 13 53 31
表 1 HmongSpeech 数据集的统计信息 调符 b x d l t s k f
Table 1 Statistical information of Hmong 例词 dab dax dad dal dat das dak daf
text corpus 译文 回答 来 长短 丢失 早晨 死 膀 搭
分类 统计 3.1.2 模型配置
总句子 4650 残差编码器由 6 个带有 2 个注意力头的 Trans-
总字符数 120326 former块构成,嵌入维度为 192,卷积滤波器大小为
平均每个句子的字符数 26 768,卷积核大小为 3,dropout 为 0.1。标准化流由 4
字符
最长句子的字符数 74 个仿射耦合层堆叠而成,每个仿射耦合层包含 4 个
最短句子的字符数 9
WaveNet 残差块。后验编码器由 16 个 WaveNet 残
总音节数 32888 差块组成,对于其输入线性谱由 1024 帧长 (window
平均每个句子的音节数 7 size)和256帧移(hop length)的STFT计算而得。解
音节
最长句子的音节数 18
码器由 2 个过采样残差块、1 个卷积层和 iSTFT 层
最短句子的音节数 3
构成。
总子音节数 61510
本文比较了所提模型与典型的两阶段 Taco-
平均每个句子的子音节数 13 [27] [6]
子音节 tron2 +HiFi-GAN、Glow-TTS +HiFi-GAN 模
最长句子的子音节数 35 [23]
型和单阶段VITS 模型。由于这些模型最初是为
最短句子的子音节数 5
英语设计的,故都使用 HmubSpeech从头训练模型,
不重复音节 1156
并以子音节作为输入。文中所有实验在Linux设备,
不重复子音节 195
使用2 NVIDIA V100 GPUs进行训练,样本批次大
本文的研究对象为中部苗语,以黔东南州凯里 小为 32。使用参数为 β 1 = 0.8、β 2 = 0.99、ε = 10 −9
的 Adam优化器对模型进行优化。模型均被训练至
市养蒿村苗语为标准音。历史上,苗族没有本族文
收敛,共208k 步。
字,现代苗文是一种以拉丁字符为基础的拼音型文
字,拼写方式为 “声母 + 韵母 + 声调”。这种拼音系 3.1.3 评估指标
统使用了英语的 26 个拉丁字母和一些特有的组合 本文从主观和客观两个方面评估 ITHSS 方法
符号,用于表示苗语的音节。如表 2 和表 3 所示,中 的合成性能,并与基线方法进行比较。
部苗语共有 32 个声母、26 个韵母和 8 个声调。声调 (1) 主观指标
的作用是区分词意,不同的声调有不同的含义。苗 语声合成中常用的主观评价指标为平均意见
语是一种带声调的单音节语言,将音节拆分后得到 得分 (Mean opinion score, MOS),即测试者根据自
的声母、韵母 + 声调称为子音节,这种子音节的输 己的听觉感受来对被测语声样例的整体质量进行
入方式有助于模型学习苗语的声调信息 [26] 。 打分。MOS 是一种分级判断指标,采取5个级别对