Page 82 - 《应用声学》2025年第2期
P. 82

342                                                                                  2025 年 3 月


             2.1 残差编码器                                         度和原始波形的时域分辨率相同为止。受文献 [24]
                 由于语声合成模型的输入只有文本,较少的数                          的启发,用iSTFT对语声波形的相位信息进行重建,
             据集会使得模型提取的文本特征信息不充分,造成                            对原始解码器的部分输出层进行改进,如图 4(b) 所
             上下文信息丢失,从而使得合成语声质量差,故本文                           示,虚线框部分是两个解码器的不同之处。iSTFT
             提出以残差编码器对输入文本进行特征提取,期望                            解码器去除原始解码器中的两个残差块,先通过过
             通过残差编码器保留更多的文本信息,从而有助于                            采样卷积生成与原始波形长度相同的幅度谱和相
             生成更自然的苗语语声。残差编码器                  [25]  是对原始      位谱,再利用 iSTFT 进行频域到时域的转换,最后
             编码器的一个增强,是将子音节经 Emdedding后的                       输出语声波形。这种方法有效利用了谱图中的时频
             向量添加到编码器的输出中,如图3所示。                               信息,并降低了计算成本。

                                                               3 实验
                  ߕᮃᓬ       ࢦК      ஡వᎄᆊ٨
                                                               3.1  实验设置
                                    ൵ࣀ஡వᎄᆊ٨
                                                               3.1.1 数据
                             图 3  残差编码器
                          Fig. 3 Residual encoder                  为 验 证 所 提 方 法 的 有 效 性, 在 自 建 数 据
                                                               集 HmongSpeech (数据下载链接:http://sxjxsf.
             2.2 iSTFT 解码器                                     gzmu.edu.cn/info/1728/1214.htm) 上 进 行 评 估。
                 由于基线模型的解码器采用了大量的转置卷                           HmongSpeech由一名青年女性录制而成,包含4650
             积操作对低分辨率的语声表示进行过采样,这增                             个苗语语声片段和对应的文本记录,每一条语声是
             加了模型的复杂度及推理时间,故本文提出一种新                            16-bit PCM WAV文件,采样率为44100 Hz。输入的
             的解码器结构。解码器即是语声波形生成器,将从                            文本序列首先被转化为子音节序列,以作为模型训
             文本得到的隐变量 z 转化为语声波形。图 4 是原始                        练基元。数据集被随机划分为训练集 (4400)、验证
             解码器与 iSTFT 解码器的比较。原始解码器基于                         集(100) 和测试集 (150)。将苗文中的拉丁字母称为
             HiFi-GAN声码器,如图4(a) 所示,由一堆转置卷积                     一个字符,一个拉丁文字称为一个音节(如,bangx),
             构成,不断地对输入进行过采样,直到输出的序列长                           声母和韵母+声调称为子音节(如,b、angx)。



                                            z                                   z
                                         ResBlock                            ResBlock
                                       (upsample T8)                       (upsample T8)


                                         ResBlock                            ResBlock
                                       (upsample T8)                       (upsample T8)

                                         ResBlock                           Output conv
                                       (upsample T2)
                                                                                     Phase
                                         ResBlock
                                       (upsample T2)
                                                                                   Magnitude
                                                                              iSTFT
                                        Output conv



                                     (a) Ԕݽᝍᆊ٨ፇ౞                         (b) iSTFTᝍᆊ٨ፇ౞

                                             图 4  原始解码器与 iSTFT 解码器的对比
                               Fig. 4 Comparison between the original decoder and the iSTFT decoder
   77   78   79   80   81   82   83   84   85   86   87