Page 85 - 《应用声学》2025年第2期
P. 85
第 44 卷 第 2 期 蔡姗等: 短时傅里叶逆变换的苗语语声合成方法 345
在客观评价中,ITHSS 模型的 MCD 和 RMSE 分别 直都小于基线模型,且 RTF 值的最大差距为 0.19。
为 11.48 和 3.41,相较于 VITS 模型分别降低了 1.12 此外,由 SpdRat 值可知,相比于基线模型,ITHSS
和 0.34。实验结果表明,无论从客观上还是主观上, 模型的演算速度提高了4∼5倍。
ITHSS 模型合成的语声质量都高于其他典型的合 语声质量的可视化如图 5 所示,其中图 5(a) 表
成方法。 示不同声频数对应的 MCD 值,图 5(b) 表示不同声
频数对应的 RMSE 值。可以发现,无论是 MCD 还
表 5 语声合成方法的对比
是 RMSE 值,ITHSS 模型的都比基线模型的低。演
Table 5 Comparison of speech synthesis
算速度的可视化如图 6 所示,其中图 6(a) 表示生成
methods
不同声频数量所对应的实时因子 RTF 值,图 6(b)
方法 MOS↑ MCD↓ RMSE↓ 表示生成不同声频数量所对应的 SpdRat 值。随着
Ground Truth 4.66 生成声频数的增加,ITHSS模型和基线模型的 RTF
Tacotron2+HiFi-GAN 3.37 14.26 4.82 差距在减小,这是因为 RTF 值的分母是合成声频
Tacotron2+HiFi-GAN 的总时长,声频数越多,总时长就越大,所需的推
3.64 13.91 4.35
(Fine-tuned)
理时间也越长,但分母的变化比分子的快得多,故
Glow-TTS+HiFi-GAN 3.69 13.54 4.15
RTF 值的差距呈单调递减趋势。SpdRat 值是基线
Glow-TTS+HiFi-GAN
3.82 12.87 3.86
(Fine-tuned) 模型的推理时间与 ITHSS 模型的推理时间之比,由
VITS 4.05 12.60 3.75 图 6(b) 可知,SpdRat 值呈单调递增趋势,且都大于
ITHSS 4.31 11.48 3.41 1,表明基线模型在生成不同声频数时所花费的时
间比 ITHSS 模型的多,且推理时间的变化幅度也比
为了比较生成不同声频数量时,ITHSS 模型合
ITHSS模型的大。由此可见,相较于基线模型,无论
成语声质量和演算速度的变化,设计了 ITHSS 模型 生成多少数量的声频,ITHSS 模型都具有更快的演
与基线模型合成语声质量和演算速度的对比实验,
算速度。
对比结果如表6所示。其中,括号外的数值为ITHSS
模型的演算速度和语声质量评估结果,括号内的数 14.0 ITHSS Baseline
13.5
值为基线模型在相同实验条件下得到的演算速度 13.0
和语声质量评估结果。 MCD 12.5
12.0
11.5
表 6 生成不同声频数的演算速度和语声质量的对比
11.0
Table 6 Comparison of reasoning speed and a/ a/ a/ a/ a/ a/
ၷੇܦᮠ
speech quality for generating different audio
(a) MCDϙᄊࠫඋ
numbers
ITHSS Baseline
3.9
3.8
生成声频数 MCD↓ RMSE↓ RTF↓ SpdRat↑ 3.7
RMSE 3.6
5 11.84 (13.43) 3.36(3.73) 0.09(0.28) x3.57 3.5
3.4
10 12.55 (13.26) 3.37(3.64) 0.04(0.15) x3.96 3.3
3.2
20 12.60 (13.07) 3.42(3.75) 0.02(0.09) x4.77 3.1 a/ a/ a/ a/ a/ a/
30 12.32 (13.36) 3.38(3.77) 0.02(0.07) x4.89 ၷੇܦᮠ
(b) RMSEϙᄊࠫඋ
40 12.02 (13.13) 3.38(3.70) 0.01(0.06) x4.97
60 12.40 (13.34) 3.37(3.71) 0.01(0.05) x5.08 图 5 生成不同声频数量的语声质量可视化图
注:RTF 计算中语声合成的时间采用平均合成时间,总共运行 Fig. 5 Generates a speech quality visualization of
100 次,下同。 different audio quantities
从 表 6 可 以 看 出, ITHSS 模 型 的 MCD 和 表 7 为 ITHSS 模型与其他模型的参数量对比
RMSE 值都比基线模型的低,表明 ITHSS 模型合 结果。两阶段的 TTS 由于涉及两个模型,故拥
成的语声质量更好。随着生成声频数的增加,两者 有较大的参数量,Tacotron2+HiFi-GAN 和 Glow-
RTF 值都在逐渐减小,但 ITHSS 模型的 RTF 值一 TTS+HiFi-GAN 模型总的参数量分别为 42.16 和