Page 84 - 《应用声学》2025年第2期
P. 84
344 2025 年 3 月
被测语声的质量进行评分,其评分标准如表 4 所示。 合成所需的时间与合成语声的持续时间之比,单位
MOS值越高,表明合成的语声质量越高。 为s,如式(4)所示:
表 4 语声主观评测标准 RTF = T tts , (4)
Table 4 Subjective speech evaluation cri- T audio
teria 其中,T tts 是语声合成算法将输入文本转化为语声
所花费的时间;T audio 表示合成语声的持续时间。
声频级别 MOS 值 评价标准
RFT 可理解为生成 1 s 语声需要花费的时间。RTF
优 5 很好,听得清楚;延迟小,交流流畅
值越低,表明合成的速度越快。一般来说,如果RTF
良 4 稍差,听得清楚;有点杂音
值小于1,则表明算法能够达到实时性要求。
中 3 还可以,听不太清;可以交流
加速比率。加速比率 (Speedup ratio, SpdRat)
差 2 勉强,听不太清;交流需要重复多遍
用于比较两个模型的演算速度。它表示为原始模型
劣 1 极差,听不懂;延迟大,交流不通畅
的推理时间与加速后模型推理时间之比。推理加速
度的计算结果是相对值,用于比较不同模型或不同
(2) 客观指标
客观指标的评价包含了相似性、实时性及鲁棒 优化方法之间的演算速度差异,计算公式如式 (5)
所示:
性三个方面,下面是常用的客观评价指标介绍:
语声相似性。语声合成的相似性指标采用梅 SpdRat = T original , (5)
T new
尔倒谱失真 (Mel-cepstral distortion, MCD),MCD
其中,T original 是原始模型合成语声的时间,T new 是
通过逐帧的方式计算合成的梅尔谱特征与真实梅
加速模型合成语声的时间。
尔谱特征之间的谱距离来度量梅尔频率倒谱系数
鲁棒性。语声合成的鲁棒性可以用词错误率
(Mel-scale frequency cepstral coefficients, MFCC)
(Word error rate, WER)来度量,WER考虑了语声
的重建性能,计算公式如式(2)所示:
合成中常出现的跳词、重复等情况,可以由式 (6)
v
T −1 u K
1 ∑ u∑ 表示:
2
MCD K = t (c t,k − c ′ t,k ) , (2)
T S + D + I
t=0 k=1 WER = , (6)
N
其中,c t,k 和 c ′ 分别是真实声频和预测声频的第
t,k 其中,S 表示发音错误的数目,D 为漏词数,I 为重复
t 帧的第 k 个 MFCC。MCD 通常使用 K = 13 维的
数,N 为总单词数。
MFCC特征的均方误差来计算。其思想是真实和合
成的梅尔倒谱序列之间的 MCD 越小,合成语声的 3.2 实验结果
自然性越接近真实语声。 3.2.1 模型合成质量与速度对比分析
韵律相似性。均方根误差 (Root mean square 为了验证 ITHSS 方法在苗语语声合成任务
error, RMSE) 指标是用来度量语声合成方法在基 上的有效性,从测试集中随机选择了 20 句测试
频 F 0 方面的准确性。它计算合成声频和目标声频 文本进行主客观评价,将 ITHSS 方法与典型的
的基频轮廓之间的 RMSE,表示两者之间的差异程 两阶段 Tacotron2+HiFi-GAN 和 Glow-TTS+HiFi-
度,如式(3)所示: GAN 模 型、 单 阶 段 的 VITS 模 型 及 真 实 语 声
v (Ground Truth) 进行合成语声质量的对比分析。
u n
1
u ∑
2
′
RMSE = t (F 0,i − F ) , (3) 表 5 展示了各方法的语声质量评估结果,所有的方
0,i
n
i=1 法都在自建的语料库上重新训练。
其中,n 表示语声帧数,F 0,i 和 F ′ 分别表示真实语 由表 5 可知,ITHSS 模型适用于苗语语声合成
0,i
声和合成语声的基频值。较低的RMSE值表示合成 且合成的苗语语声有较高的质量。其中,在主观
音频的基频轮廓与目标音频更相似,即韵律合成效 评价中,ITHSS 模型的 MOS 值为 4.31,比 VITS 模
果更好。 型高出 0.26,比未微调的 Tacotron2 和 Glow-TTS
合成速度。实时率 (Real-time factor, RTF)指 模型分别高出 0.94 和 0.69,比微调 (Fine-tuned) 的
标用于衡量语声合成算法的实时性能。它表示语声 Tacotron2 和 Glow-TTS 模型分别高出 0.67 和 0.49。