Page 82 - 《应用声学》2025年第2期

P. 82

342 2025 年 3 月

2.1 残差编码器度和原始波形的时域分辨率相同为止。受文献 [24]
由于语声合成模型的输入只有文本，较少的数的启发，用iSTFT对语声波形的相位信息进行重建，
据集会使得模型提取的文本特征信息不充分，造成对原始解码器的部分输出层进行改进，如图 4(b) 所
上下文信息丢失，从而使得合成语声质量差，故本文示，虚线框部分是两个解码器的不同之处。iSTFT
提出以残差编码器对输入文本进行特征提取，期望解码器去除原始解码器中的两个残差块，先通过过
通过残差编码器保留更多的文本信息，从而有助于采样卷积生成与原始波形长度相同的幅度谱和相
生成更自然的苗语语声。残差编码器 [25] 是对原始位谱，再利用 iSTFT 进行频域到时域的转换，最后
编码器的一个增强，是将子音节经 Emdedding后的输出语声波形。这种方法有效利用了谱图中的时频
向量添加到编码器的输出中，如图3所示。信息，并降低了计算成本。

3 实验
ߕᮃᓬ ࢦК ஡వᎄᆊ٨
3.1 实验设置
൵ࣀ஡వᎄᆊ٨
3.1.1 数据
图 3 残差编码器
Fig. 3 Residual encoder 为验证所提方法的有效性，在自建数据
集 HmongSpeech (数据下载链接：http://sxjxsf.
2.2 iSTFT 解码器 gzmu.edu.cn/info/1728/1214.htm) 上进行评估。
由于基线模型的解码器采用了大量的转置卷 HmongSpeech由一名青年女性录制而成，包含4650
积操作对低分辨率的语声表示进行过采样，这增个苗语语声片段和对应的文本记录，每一条语声是
加了模型的复杂度及推理时间，故本文提出一种新 16-bit PCM WAV文件，采样率为44100 Hz。输入的
的解码器结构。解码器即是语声波形生成器，将从文本序列首先被转化为子音节序列，以作为模型训
文本得到的隐变量 z 转化为语声波形。图 4 是原始练基元。数据集被随机划分为训练集 (4400)、验证
解码器与 iSTFT 解码器的比较。原始解码器基于集(100) 和测试集 (150)。将苗文中的拉丁字母称为
HiFi-GAN声码器，如图4(a) 所示，由一堆转置卷积一个字符，一个拉丁文字称为一个音节(如，bangx)，
构成，不断地对输入进行过采样，直到输出的序列长声母和韵母+声调称为子音节(如，b、angx)。

z z
ResBlock ResBlock
(upsample T8) (upsample T8)

ResBlock ResBlock
(upsample T8) (upsample T8)

ResBlock Output conv
(upsample T2)
Phase
ResBlock
(upsample T2)
Magnitude
iSTFT
Output conv

(a) Ԕݽᝍᆊ٨ፇ౞ (b) iSTFTᝍᆊ٨ፇ౞

图 4 原始解码器与 iSTFT 解码器的对比
Fig. 4 Comparison between the original decoder and the iSTFT decoder

77 78 79 80 81 82 83 84 85 86 87