Page 86 - 《应用声学》2025年第2期
P. 86

346                                                                                  2025 年 3 月


             42.57。单阶段的 TTS 模型倾向于更少的参数量,                       0.51,合成语声的质量有所降低,表明残差编码器
             ITHSS 模型的参数量为 3.68,较基线模型减少了                       有助于模型更好地学习输入文本的发音,合成语声
             1.64。实验结果表明,两阶段 TTS 模型比单阶段的                       的相似性和韵律更接近真实语声。去除iSTFT解码
             模型更复杂,且本文提出的 iSTFT 解码器在去除                         器时,RTF值为0.11,ITHSS的RTF值为0.01,表明
             一些复杂的过采样模块后,可以有效减少模型的参                            iSTFT解码器能加快模型的演算速度。
             数量,这也间接说明了 ITHSS 模型演算速度加快的                            表 9 是不同训练基元的评估结果,其中 Base-
             原因。                                               line_Syll 表示基线模型以子音节作为训练基元进
                                                               行实验;Baseline_Char 表示基线模型以字符作为
                  0.3
                                     ITHSS   Baseline
                                                               训练基元进行模型的训练与验证。
                  0.2
                 RTF                                                     表 8   ITHSS 的消融研究结果
                  0.1                                           Table 8 Results of ablation studies at ITHSS
                                                                       方法          MCD↓    RMSE↓     RTF↓
                   0
                      a/  a/  a/  a/  a/  a/
                                                                      ITHSS        11.36     2.89     0.01
                                   ၷੇܦᮠ஝
                                                                   w/o. REncoder   12.69     3.40     0.08
                                (a) RTFϙᄊࠫඋ
                                                                    w/o. iSTFTD    12.22     3.32     0.11
                  5.5
                  5.0                                                    表 9  不同训练基元的评估结果
                 SpdRat  4.5                                      Table 9   Evaluation results of different
                                                                  training primitives
                  4.0
                  3.5
                                                                         方法             MOS         MCD
                  3.0
                       a/  a/  a/  a/  a/  a/
                                                                     Ground Truth       4.58
                                  ၷੇܦᮠ஝
                               (b) SpdRatϙᄊԫӑ                        Baseline_Syll      3.94        12.51
                                                                     Baseline_Char      3.62        12.86
                  图 6  生成不同声频数量的演算速度可视化图
               Fig. 6 Visualization of inference speed for gener-  由表 9 可知,基于子音节训练的模型有 3.94 的
               ating different audio quantities                 MOS 值和 12.51 的 MCD 值,而基于字符训练的模
                                                               型有 3.62 的 MOS 值和 12.86 的 MCD 值。实验结果
                            表 7   参数量对比
                Table 7 Parameter quantity comparison          表明,以子音节作为训练基元能够学到输入文本更
                                                               多的苗语发音信息,从而提高合成语声的质量。
                                       #of Params(M)↓              表 10 是 ITHSS 模 型 在 标 贝 中 文 数 据 集
                        方法
                                    Acoustic model Vocoder
                                                               CSMCS 和英文数据集 LJ Speech 下与其他模型的
                 Tacotron2+HiFi-GAN    28.22      13.94
                                                               客观评估及演算速度对比结果。
                 Glow-TTS+HiFi-GAN     28.63      13.94
                                                                表 10   CSMCS 和 LJ Speech 数据集下的评估结果
                      Baseline         36.32      0.00
                                                                 Table 10 Evaluation results under CSMCS
                       ITHSS           30.68      0.00
                                                                 and LJ Speech datasets
             3.2.2 消融实验
                                                                   数据集         方法      MCD     RMSE    RTF
                 为了验证本文提出的残差编码器和 iSTFT 解                                     文献 [28]   7.79     2.89   1.03
             码器的有效性、不同训练基元对模型性能的影响                                           文献 [29]   8.57     3.25   1.45
                                                                   CSMCS
             及模型的泛化能力,进行了以下消融实验。表 8                                          文献 [30]   8.95     2.56   1.31
             展示了 ITHSS 模型在分别去除文本编码器的残差                                        ITHSS    7.48     2.11   0.02

             连接 (w/o. REncoder) 和沿用原始的解码器 (w/o.                              文献 [21]   7.83     3.28   1.27
             iSTFTD)的评估结果对比。                                      LJ Speech  文献 [20]   7.37     2.76   0.53
                 由表 8 可知,与 ITHSS 模型相比,去除残差                                   文献 [23]   7.16     2.32   0.05
                                                                              ITHSS    6.99     1.82   0.01
             编码器后 MCD 值和 RMSE 值分别增加了 1.33 和
   81   82   83   84   85   86   87   88   89   90   91