Page 82 - 《应用声学》2025年第2期
P. 82
342 2025 年 3 月
2.1 残差编码器 度和原始波形的时域分辨率相同为止。受文献 [24]
由于语声合成模型的输入只有文本,较少的数 的启发,用iSTFT对语声波形的相位信息进行重建,
据集会使得模型提取的文本特征信息不充分,造成 对原始解码器的部分输出层进行改进,如图 4(b) 所
上下文信息丢失,从而使得合成语声质量差,故本文 示,虚线框部分是两个解码器的不同之处。iSTFT
提出以残差编码器对输入文本进行特征提取,期望 解码器去除原始解码器中的两个残差块,先通过过
通过残差编码器保留更多的文本信息,从而有助于 采样卷积生成与原始波形长度相同的幅度谱和相
生成更自然的苗语语声。残差编码器 [25] 是对原始 位谱,再利用 iSTFT 进行频域到时域的转换,最后
编码器的一个增强,是将子音节经 Emdedding后的 输出语声波形。这种方法有效利用了谱图中的时频
向量添加到编码器的输出中,如图3所示。 信息,并降低了计算成本。
3 实验
ߕᮃᓬ ࢦК వᎄᆊ٨
3.1 实验设置
൵ࣀవᎄᆊ٨
3.1.1 数据
图 3 残差编码器
Fig. 3 Residual encoder 为 验 证 所 提 方 法 的 有 效 性, 在 自 建 数 据
集 HmongSpeech (数据下载链接:http://sxjxsf.
2.2 iSTFT 解码器 gzmu.edu.cn/info/1728/1214.htm) 上 进 行 评 估。
由于基线模型的解码器采用了大量的转置卷 HmongSpeech由一名青年女性录制而成,包含4650
积操作对低分辨率的语声表示进行过采样,这增 个苗语语声片段和对应的文本记录,每一条语声是
加了模型的复杂度及推理时间,故本文提出一种新 16-bit PCM WAV文件,采样率为44100 Hz。输入的
的解码器结构。解码器即是语声波形生成器,将从 文本序列首先被转化为子音节序列,以作为模型训
文本得到的隐变量 z 转化为语声波形。图 4 是原始 练基元。数据集被随机划分为训练集 (4400)、验证
解码器与 iSTFT 解码器的比较。原始解码器基于 集(100) 和测试集 (150)。将苗文中的拉丁字母称为
HiFi-GAN声码器,如图4(a) 所示,由一堆转置卷积 一个字符,一个拉丁文字称为一个音节(如,bangx),
构成,不断地对输入进行过采样,直到输出的序列长 声母和韵母+声调称为子音节(如,b、angx)。
z z
ResBlock ResBlock
(upsample T8) (upsample T8)
ResBlock ResBlock
(upsample T8) (upsample T8)
ResBlock Output conv
(upsample T2)
Phase
ResBlock
(upsample T2)
Magnitude
iSTFT
Output conv
(a) Ԕݽᝍᆊ٨ፇ (b) iSTFTᝍᆊ٨ፇ
图 4 原始解码器与 iSTFT 解码器的对比
Fig. 4 Comparison between the original decoder and the iSTFT decoder