Page 85 - 《应用声学》2025年第2期
P. 85

第 44 卷 第 2 期               蔡姗等: 短时傅里叶逆变换的苗语语声合成方法                                           345


             在客观评价中,ITHSS 模型的 MCD 和 RMSE 分别                    直都小于基线模型,且 RTF 值的最大差距为 0.19。
             为 11.48 和 3.41,相较于 VITS 模型分别降低了 1.12              此外,由 SpdRat 值可知,相比于基线模型,ITHSS
             和 0.34。实验结果表明,无论从客观上还是主观上,                        模型的演算速度提高了4∼5倍。
             ITHSS 模型合成的语声质量都高于其他典型的合                              语声质量的可视化如图 5 所示,其中图 5(a) 表
             成方法。                                              示不同声频数对应的 MCD 值,图 5(b) 表示不同声
                                                               频数对应的 RMSE 值。可以发现,无论是 MCD 还
                        表 5   语声合成方法的对比
                                                               是 RMSE 值,ITHSS 模型的都比基线模型的低。演
                Table 5 Comparison of speech synthesis
                                                               算速度的可视化如图 6 所示,其中图 6(a) 表示生成
                methods
                                                               不同声频数量所对应的实时因子 RTF 值,图 6(b)
                        方法          MOS↑  MCD↓   RMSE↓         表示生成不同声频数量所对应的 SpdRat 值。随着
                     Ground Truth    4.66                      生成声频数的增加,ITHSS模型和基线模型的 RTF
                 Tacotron2+HiFi-GAN  3.37  14.26  4.82         差距在减小,这是因为 RTF 值的分母是合成声频
                 Tacotron2+HiFi-GAN                            的总时长,声频数越多,总时长就越大,所需的推
                                     3.64  13.91  4.35
                     (Fine-tuned)
                                                               理时间也越长,但分母的变化比分子的快得多,故
                 Glow-TTS+HiFi-GAN   3.69  13.54  4.15
                                                               RTF 值的差距呈单调递减趋势。SpdRat 值是基线
                 Glow-TTS+HiFi-GAN
                                     3.82  12.87  3.86
                     (Fine-tuned)                              模型的推理时间与 ITHSS 模型的推理时间之比,由
                        VITS         4.05  12.60  3.75         图 6(b) 可知,SpdRat 值呈单调递增趋势,且都大于
                       ITHSS         4.31  11.48  3.41         1,表明基线模型在生成不同声频数时所花费的时
                                                               间比 ITHSS 模型的多,且推理时间的变化幅度也比
                 为了比较生成不同声频数量时,ITHSS 模型合
                                                               ITHSS模型的大。由此可见,相较于基线模型,无论
             成语声质量和演算速度的变化,设计了 ITHSS 模型                        生成多少数量的声频,ITHSS 模型都具有更快的演
             与基线模型合成语声质量和演算速度的对比实验,
                                                               算速度。
             对比结果如表6所示。其中,括号外的数值为ITHSS
             模型的演算速度和语声质量评估结果,括号内的数                                14.0                  ITHSS    Baseline
                                                                   13.5
             值为基线模型在相同实验条件下得到的演算速度                                 13.0
             和语声质量评估结果。                                           MCD  12.5
                                                                   12.0
                                                                   11.5
              表 6  生成不同声频数的演算速度和语声质量的对比
                                                                   11.0
              Table 6 Comparison of reasoning speed and                  a/  a/  a/   a/  a/  a/
                                                                                      ၷੇܦᮠ஝
              speech quality for generating different audio
                                                                                   (a) MCDϙᄊࠫඋ
              numbers
                                                                                         ITHSS    Baseline
                                                                    3.9
                                                                    3.8
             生成声频数       MCD↓      RMSE↓    RTF↓    SpdRat↑         3.7
                                                                   RMSE  3.6
                 5     11.84 (13.43)  3.36(3.73)  0.09(0.28)  x3.57  3.5
                                                                    3.4
                10     12.55 (13.26)  3.37(3.64)  0.04(0.15)  x3.96  3.3
                                                                    3.2
                20     12.60 (13.07)  3.42(3.75)  0.02(0.09)  x4.77  3.1  a/  a/  a/  a/  a/  a/
                30     12.32 (13.36)  3.38(3.77)  0.02(0.07)  x4.89                   ၷੇܦᮠ஝
                                                                                   (b) RMSEϙᄊࠫඋ
                40     12.02 (13.13)  3.38(3.70)  0.01(0.06)  x4.97
                60     12.40 (13.34)  3.37(3.71)  0.01(0.05)  x5.08  图 5  生成不同声频数量的语声质量可视化图
             注:RTF 计算中语声合成的时间采用平均合成时间,总共运行                        Fig. 5 Generates a speech quality visualization of
             100 次,下同。                                            different audio quantities
                 从 表 6 可 以 看 出, ITHSS 模 型 的 MCD 和                  表 7 为 ITHSS 模型与其他模型的参数量对比
             RMSE 值都比基线模型的低,表明 ITHSS 模型合                       结果。两阶段的 TTS 由于涉及两个模型,故拥
             成的语声质量更好。随着生成声频数的增加,两者                            有较大的参数量,Tacotron2+HiFi-GAN 和 Glow-
             RTF 值都在逐渐减小,但 ITHSS 模型的 RTF 值一                    TTS+HiFi-GAN 模型总的参数量分别为 42.16 和
   80   81   82   83   84   85   86   87   88   89   90