Page 86 - 《应用声学》2025年第2期
P. 86
346 2025 年 3 月
42.57。单阶段的 TTS 模型倾向于更少的参数量, 0.51,合成语声的质量有所降低,表明残差编码器
ITHSS 模型的参数量为 3.68,较基线模型减少了 有助于模型更好地学习输入文本的发音,合成语声
1.64。实验结果表明,两阶段 TTS 模型比单阶段的 的相似性和韵律更接近真实语声。去除iSTFT解码
模型更复杂,且本文提出的 iSTFT 解码器在去除 器时,RTF值为0.11,ITHSS的RTF值为0.01,表明
一些复杂的过采样模块后,可以有效减少模型的参 iSTFT解码器能加快模型的演算速度。
数量,这也间接说明了 ITHSS 模型演算速度加快的 表 9 是不同训练基元的评估结果,其中 Base-
原因。 line_Syll 表示基线模型以子音节作为训练基元进
行实验;Baseline_Char 表示基线模型以字符作为
0.3
ITHSS Baseline
训练基元进行模型的训练与验证。
0.2
RTF 表 8 ITHSS 的消融研究结果
0.1 Table 8 Results of ablation studies at ITHSS
方法 MCD↓ RMSE↓ RTF↓
0
a/ a/ a/ a/ a/ a/
ITHSS 11.36 2.89 0.01
ၷੇܦᮠ
w/o. REncoder 12.69 3.40 0.08
(a) RTFϙᄊࠫඋ
w/o. iSTFTD 12.22 3.32 0.11
5.5
5.0 表 9 不同训练基元的评估结果
SpdRat 4.5 Table 9 Evaluation results of different
training primitives
4.0
3.5
方法 MOS MCD
3.0
a/ a/ a/ a/ a/ a/
Ground Truth 4.58
ၷੇܦᮠ
(b) SpdRatϙᄊԫӑ Baseline_Syll 3.94 12.51
Baseline_Char 3.62 12.86
图 6 生成不同声频数量的演算速度可视化图
Fig. 6 Visualization of inference speed for gener- 由表 9 可知,基于子音节训练的模型有 3.94 的
ating different audio quantities MOS 值和 12.51 的 MCD 值,而基于字符训练的模
型有 3.62 的 MOS 值和 12.86 的 MCD 值。实验结果
表 7 参数量对比
Table 7 Parameter quantity comparison 表明,以子音节作为训练基元能够学到输入文本更
多的苗语发音信息,从而提高合成语声的质量。
#of Params(M)↓ 表 10 是 ITHSS 模 型 在 标 贝 中 文 数 据 集
方法
Acoustic model Vocoder
CSMCS 和英文数据集 LJ Speech 下与其他模型的
Tacotron2+HiFi-GAN 28.22 13.94
客观评估及演算速度对比结果。
Glow-TTS+HiFi-GAN 28.63 13.94
表 10 CSMCS 和 LJ Speech 数据集下的评估结果
Baseline 36.32 0.00
Table 10 Evaluation results under CSMCS
ITHSS 30.68 0.00
and LJ Speech datasets
3.2.2 消融实验
数据集 方法 MCD RMSE RTF
为了验证本文提出的残差编码器和 iSTFT 解 文献 [28] 7.79 2.89 1.03
码器的有效性、不同训练基元对模型性能的影响 文献 [29] 8.57 3.25 1.45
CSMCS
及模型的泛化能力,进行了以下消融实验。表 8 文献 [30] 8.95 2.56 1.31
展示了 ITHSS 模型在分别去除文本编码器的残差 ITHSS 7.48 2.11 0.02
连接 (w/o. REncoder) 和沿用原始的解码器 (w/o. 文献 [21] 7.83 3.28 1.27
iSTFTD)的评估结果对比。 LJ Speech 文献 [20] 7.37 2.76 0.53
由表 8 可知,与 ITHSS 模型相比,去除残差 文献 [23] 7.16 2.32 0.05
ITHSS 6.99 1.82 0.01
编码器后 MCD 值和 RMSE 值分别增加了 1.33 和