Page 83 - 《应用声学》2025年第2期
P. 83

第 44 卷 第 2 期               蔡姗等: 短时傅里叶逆变换的苗语语声合成方法                                           343


                 HmongSpeech 数据集的基本统计情况如表 1                                   表 2  苗语的声韵母
             所示。整个数据集包含 4650 个句子,总的字符数为                           Table 2 Vocal vowels of Hmong language
             120326 个,平均每个句子的字符数为 26 个,最长句
                                                                                     声母
             子的字符数为 74 个,最短句子的字符数为 9 个;对
                                                                     b, p, m, hm, f, hf, w, d, t, n, hn, dl, hl, l, z, c,
             于音节基元,总的音节个数为 32888,平均每个句子                              s, hs, r, j, q, x, hx, y, g, k, ng, v, hv, gh, kh, h
             的音节个数为 7,最长和最短句子的音节个数分别                                                 韵母
             为18 和 3;子音节基元的总个数为 61510,每个句子                           i, e, a, o, u, ai, ei, ia, io, ie, iu, ang, en, ong, in,
                                                                     iang, iong, ee, ao, iee, iao, ui, ua, uai, un, uang
             的平均、最大和最小子音节个数分别为 13、35 和 5。
             最终统计词汇量为1156个,子音节集合个数为 195。                                       表 3  苗语的声调
             从子音节这个基本发音单元来看,数据集覆盖的苗                                  Table 3 Tones of Hmong language
             语发音现象较为全面,分别从声母、韵母和声调的
                                                                 调类     1    2   3     4    5    6   7    8
             囊括情况来体现,这是苗语发音的基本组成单元。
                                                                 调值    33   55   35   11   44   13   53  31
                  表 1   HmongSpeech 数据集的统计信息                     调符     b    x   d     l    t    s   k    f
                Table 1 Statistical information of Hmong         例词    dab  dax  dad  dal  dat  das  dak  daf
                text corpus                                      译文   回答    来   长短   丢失    早晨   死    膀   搭

                    分类                   统计                    3.1.2 模型配置
                   总句子                  4650                       残差编码器由 6 个带有 2 个注意力头的 Trans-
                                   总字符数           120326       former块构成,嵌入维度为 192,卷积滤波器大小为
                              平均每个句子的字符数            26         768,卷积核大小为 3,dropout 为 0.1。标准化流由 4
                    字符
                                最长句子的字符数            74         个仿射耦合层堆叠而成,每个仿射耦合层包含 4 个
                                最短句子的字符数            9
                                                               WaveNet 残差块。后验编码器由 16 个 WaveNet 残
                                   总音节数           32888        差块组成,对于其输入线性谱由 1024 帧长 (window
                              平均每个句子的音节数            7          size)和256帧移(hop length)的STFT计算而得。解
                    音节
                                最长句子的音节数            18
                                                               码器由 2 个过采样残差块、1 个卷积层和 iSTFT 层
                                最短句子的音节数            3
                                                               构成。
                                  总子音节数           61510
                                                                   本文比较了所提模型与典型的两阶段 Taco-
                             平均每个句子的子音节数            13              [27]                     [6]
                   子音节                                         tron2   +HiFi-GAN、Glow-TTS      +HiFi-GAN 模
                               最长句子的子音节数            35                         [23]
                                                               型和单阶段VITS          模型。由于这些模型最初是为
                               最短句子的子音节数            5
                                                               英语设计的,故都使用 HmubSpeech从头训练模型,
                 不重复音节                  1156
                                                               并以子音节作为输入。文中所有实验在Linux设备,
                 不重复子音节                  195
                                                               使用2 NVIDIA V100 GPUs进行训练,样本批次大
                 本文的研究对象为中部苗语,以黔东南州凯里                          小为 32。使用参数为 β 1 = 0.8、β 2 = 0.99、ε = 10     −9
                                                               的 Adam优化器对模型进行优化。模型均被训练至
             市养蒿村苗语为标准音。历史上,苗族没有本族文
                                                               收敛,共208k 步。
             字,现代苗文是一种以拉丁字符为基础的拼音型文
             字,拼写方式为 “声母 + 韵母 + 声调”。这种拼音系                      3.1.3 评估指标
             统使用了英语的 26 个拉丁字母和一些特有的组合                              本文从主观和客观两个方面评估 ITHSS 方法
             符号,用于表示苗语的音节。如表 2 和表 3 所示,中                       的合成性能,并与基线方法进行比较。
             部苗语共有 32 个声母、26 个韵母和 8 个声调。声调                         (1) 主观指标
             的作用是区分词意,不同的声调有不同的含义。苗                                语声合成中常用的主观评价指标为平均意见
             语是一种带声调的单音节语言,将音节拆分后得到                            得分 (Mean opinion score, MOS),即测试者根据自
             的声母、韵母 + 声调称为子音节,这种子音节的输                          己的听觉感受来对被测语声样例的整体质量进行
             入方式有助于模型学习苗语的声调信息                  [26] 。         打分。MOS 是一种分级判断指标,采取5个级别对
   78   79   80   81   82   83   84   85   86   87   88