Page 81 - 《应用声学》2025年第2期
P. 81

第 44 卷 第 2 期               蔡姗等: 短时傅里叶逆变换的苗语语声合成方法                                           341

                                 [  p θ (z|c)  ]
                lg p θ (x|c) >  E  lg                          和幅度 (Magnitude),如图 1(a) 所示。iSTFT 则是
                           q ϕ(z|x)  q ϕ (z|x)                 实现语声信号从频域到时域转换的方法,将 STFT
                        [                    ]
                                      q ϕ (z|x)                产生的频率分量重新组合,以达到重建语声波形的
              =    E     lg p θ (x|z) − lg
                                                               目的,如图 1(b) 所示。在进行 iSTFT 时,首先对每
                z∼q ϕ(z|x)            p θ (z|c)
              =    E   [lg p θ (x|z)] − KL(q ϕ (z|x)||p θ (z|c)), (1)  个频域帧信号进行傅里叶逆变换;其次对逆变换结
                z∼q ϕ(z|x)
                                                               果进行加窗处理,使用与STFT相同的窗函数类型、
             其中,x 是线性谱,c 是输入文本,z 是变分自编码的
                                                               窗长和重叠大小;最后将加窗后的每帧信号进行重
             潜在变量;p θ (x|z) 是似然函数,p θ (z|c) 是先验分布,
                                                               叠相加,并除以每帧窗函数的平方和,得到重建的语
             q ϕ (z|x) 是后验分布,三者对应到神经网络分别为解
                                                               声信号。
             码器、后验编码器和先验编码器。不等式右边的第
             一项表示重构误差的期望,第二项表示先验分布与
                                                               2 苗语语声合成方法
             后验分布之间的距离。
             1.2 iSTFT 介绍                                          针对两阶段 TTS 存在的模型复杂、演算速度

                 在语声信号的时频分析中,既要考虑信号的                           慢的问题,基于 iSTFT提出一种快速的苗语语声合
             时域信息,也要考虑频域信息。为了解决傅里叶                             成方法 (ITHSS)。该方法是一种完全端到端的生成
             变换 (Fourier transform, FT) 只保留频率特征却丢              模型,直接将具有对齐信息的隐特征重建为语声波
             失时间信息的问题,短时傅里叶变换 (Short-time                      形,不直接生成中间声学特征,避免了两阶段 TTS
             Fourier transform, STFT) 采用分帧加窗的方式将               因特征分布不匹配出现的合成伪影。ITHSS通过最

             信号截取成每一小段,通过对每一段信号进行 FT                           大化给定文本的条件下语声波形的对数似然函数
             以同时保留时域和频域信息。STFT 是实现语声信                          lg p(x|c),以实现文本与语声间对齐概率的最大化,
                                                                 θ
             号从时域到频域转换的方法,可以将信号分解为一                            从而使合成的语声具有更准确发音。ITHSS模型架
             系列的频率分量,每个分量都包含一个相位(Phase)                        构如图2所示,下面将对几个关键部分进行阐述。

                                  w[n]                 Phase
                          x[n]                                                            y[n]
                                     x[n]Tw[n]                         y[k]Tw[n]
                                  h          Ϭ᧗Ձ                 Ϭ᧗Ձ           ᧘ԯᄱҫ
                                     Ѭࣝҫቔ     ԫ૱      Magnitude  ᤤԫ૱     ҫቔ    ඈࣝηՂ
                         ԔݽηՂ                                                            ᧘थηՂ

                                  (a) STFT                               (b) iSTFT
                                                  图 1  STFT 与 iSTFT 过程
                                               Fig. 1 STFT and iSTFT processes


                                            ӭូࠫᴏଽጊ

                                             2 1 2 d
                                                                        f θ(z)
                                                         2                       iSTFT
                                                                Flow f θ
                                          µ θ ֒ σ θ      1                       ᝍᆊ٨
                                                         2
                                                  ૯ܿ                    z
                                    ௢࠱                  d
                                                ᬤ఻ે፞௑
                                          h text              Ցᰎᎄᆊ٨
                                                 ᫎᮕ฾٨
                                                                                MPDѼѿ٨
                                   ൵ࣀ஡వ
                                                                        x lin
                                    ᎄᆊ٨               ̩ᝫጷ      ጳভ៨ڏ
                                                      ̩଎ေ                         ᄾ/Ϝ
                                          c text
                                    ߕᮃᓬ               ᝫጷ֗଎ေ
                                                   图 2  ITHSS 的模型架构
                                              Fig. 2 Model architecture of ITHSS
   76   77   78   79   80   81   82   83   84   85   86