Page 84 - 《应用声学》2025年第2期
P. 84

344                                                                                  2025 年 3 月


             被测语声的质量进行评分,其评分标准如表 4 所示。                         合成所需的时间与合成语声的持续时间之比,单位
             MOS值越高,表明合成的语声质量越高。                               为s,如式(4)所示:

                         表 4   语声主观评测标准                                        RTF =    T tts  ,          (4)
                Table 4 Subjective speech evaluation cri-                              T audio
                teria                                          其中,T tts 是语声合成算法将输入文本转化为语声
                                                               所花费的时间;T audio 表示合成语声的持续时间。
                声频级别 MOS 值              评价标准
                                                               RFT 可理解为生成 1 s 语声需要花费的时间。RTF
                   优       5    很好,听得清楚;延迟小,交流流畅
                                                               值越低,表明合成的速度越快。一般来说,如果RTF
                   良       4       稍差,听得清楚;有点杂音
                                                               值小于1,则表明算法能够达到实时性要求。
                   中       3      还可以,听不太清;可以交流
                                                                   加速比率。加速比率 (Speedup ratio, SpdRat)
                   差       2   勉强,听不太清;交流需要重复多遍
                                                               用于比较两个模型的演算速度。它表示为原始模型
                   劣       1    极差,听不懂;延迟大,交流不通畅
                                                               的推理时间与加速后模型推理时间之比。推理加速
                                                               度的计算结果是相对值,用于比较不同模型或不同
                 (2) 客观指标
                 客观指标的评价包含了相似性、实时性及鲁棒                          优化方法之间的演算速度差异,计算公式如式 (5)
                                                               所示:
             性三个方面,下面是常用的客观评价指标介绍:
                 语声相似性。语声合成的相似性指标采用梅                                         SpdRat =  T original  ,      (5)
                                                                                        T new
             尔倒谱失真 (Mel-cepstral distortion, MCD),MCD
                                                               其中,T original 是原始模型合成语声的时间,T new 是
             通过逐帧的方式计算合成的梅尔谱特征与真实梅
                                                               加速模型合成语声的时间。
             尔谱特征之间的谱距离来度量梅尔频率倒谱系数
                                                                   鲁棒性。语声合成的鲁棒性可以用词错误率
             (Mel-scale frequency cepstral coefficients, MFCC)
                                                               (Word error rate, WER)来度量,WER考虑了语声
             的重建性能,计算公式如式(2)所示:
                                                               合成中常出现的跳词、重复等情况,可以由式 (6)
                                   v
                               T −1  u  K
                             1  ∑ u∑                           表示:
                                                  2
                   MCD K =         t    (c t,k − c ′ t,k ) ,  (2)
                             T                                                       S + D + I
                               t=0   k=1                                     WER =             ,          (6)
                                                                                         N
             其中,c t,k 和 c ′  分别是真实声频和预测声频的第
                         t,k                                   其中,S 表示发音错误的数目,D 为漏词数,I 为重复
             t 帧的第 k 个 MFCC。MCD 通常使用 K = 13 维的
                                                               数,N 为总单词数。
             MFCC特征的均方误差来计算。其思想是真实和合
             成的梅尔倒谱序列之间的 MCD 越小,合成语声的                          3.2  实验结果
             自然性越接近真实语声。                                       3.2.1 模型合成质量与速度对比分析
                 韵律相似性。均方根误差 (Root mean square                     为了验证 ITHSS 方法在苗语语声合成任务
             error, RMSE) 指标是用来度量语声合成方法在基                      上的有效性,从测试集中随机选择了 20 句测试
             频 F 0 方面的准确性。它计算合成声频和目标声频                         文本进行主客观评价,将 ITHSS 方法与典型的
             的基频轮廓之间的 RMSE,表示两者之间的差异程                          两阶段 Tacotron2+HiFi-GAN 和 Glow-TTS+HiFi-
             度,如式(3)所示:                                        GAN 模 型、 单 阶 段 的 VITS 模 型 及 真 实 语 声

                              v                                (Ground Truth) 进行合成语声质量的对比分析。
                              u    n
                                1
                              u ∑
                                                2
                                              ′
                     RMSE =   t       (F 0,i − F ) ,    (3)    表 5 展示了各方法的语声质量评估结果,所有的方
                                              0,i
                                n
                                  i=1                          法都在自建的语料库上重新训练。
             其中,n 表示语声帧数,F 0,i 和 F       ′  分别表示真实语                由表 5 可知,ITHSS 模型适用于苗语语声合成
                                         0,i
             声和合成语声的基频值。较低的RMSE值表示合成                           且合成的苗语语声有较高的质量。其中,在主观
             音频的基频轮廓与目标音频更相似,即韵律合成效                            评价中,ITHSS 模型的 MOS 值为 4.31,比 VITS 模
             果更好。                                              型高出 0.26,比未微调的 Tacotron2 和 Glow-TTS
                 合成速度。实时率 (Real-time factor, RTF)指             模型分别高出 0.94 和 0.69,比微调 (Fine-tuned) 的
             标用于衡量语声合成算法的实时性能。它表示语声                            Tacotron2 和 Glow-TTS 模型分别高出 0.67 和 0.49。
   79   80   81   82   83   84   85   86   87   88   89