Page 81 - 《应用声学》2025年第2期
P. 81
第 44 卷 第 2 期 蔡姗等: 短时傅里叶逆变换的苗语语声合成方法 341
[ p θ (z|c) ]
lg p θ (x|c) > E lg 和幅度 (Magnitude),如图 1(a) 所示。iSTFT 则是
q ϕ(z|x) q ϕ (z|x) 实现语声信号从频域到时域转换的方法,将 STFT
[ ]
q ϕ (z|x) 产生的频率分量重新组合,以达到重建语声波形的
= E lg p θ (x|z) − lg
目的,如图 1(b) 所示。在进行 iSTFT 时,首先对每
z∼q ϕ(z|x) p θ (z|c)
= E [lg p θ (x|z)] − KL(q ϕ (z|x)||p θ (z|c)), (1) 个频域帧信号进行傅里叶逆变换;其次对逆变换结
z∼q ϕ(z|x)
果进行加窗处理,使用与STFT相同的窗函数类型、
其中,x 是线性谱,c 是输入文本,z 是变分自编码的
窗长和重叠大小;最后将加窗后的每帧信号进行重
潜在变量;p θ (x|z) 是似然函数,p θ (z|c) 是先验分布,
叠相加,并除以每帧窗函数的平方和,得到重建的语
q ϕ (z|x) 是后验分布,三者对应到神经网络分别为解
声信号。
码器、后验编码器和先验编码器。不等式右边的第
一项表示重构误差的期望,第二项表示先验分布与
2 苗语语声合成方法
后验分布之间的距离。
1.2 iSTFT 介绍 针对两阶段 TTS 存在的模型复杂、演算速度
在语声信号的时频分析中,既要考虑信号的 慢的问题,基于 iSTFT提出一种快速的苗语语声合
时域信息,也要考虑频域信息。为了解决傅里叶 成方法 (ITHSS)。该方法是一种完全端到端的生成
变换 (Fourier transform, FT) 只保留频率特征却丢 模型,直接将具有对齐信息的隐特征重建为语声波
失时间信息的问题,短时傅里叶变换 (Short-time 形,不直接生成中间声学特征,避免了两阶段 TTS
Fourier transform, STFT) 采用分帧加窗的方式将 因特征分布不匹配出现的合成伪影。ITHSS通过最
信号截取成每一小段,通过对每一段信号进行 FT 大化给定文本的条件下语声波形的对数似然函数
以同时保留时域和频域信息。STFT 是实现语声信 lg p(x|c),以实现文本与语声间对齐概率的最大化,
θ
号从时域到频域转换的方法,可以将信号分解为一 从而使合成的语声具有更准确发音。ITHSS模型架
系列的频率分量,每个分量都包含一个相位(Phase) 构如图2所示,下面将对几个关键部分进行阐述。
w[n] Phase
x[n] y[n]
x[n]Tw[n] y[k]Tw[n]
h Ϭ᧗Ձ Ϭ᧗Ձ ᧘ԯᄱҫ
Ѭࣝҫቔ ԫ૱ Magnitude ᤤԫ૱ ҫቔ ඈࣝηՂ
ԔݽηՂ ᧘थηՂ
(a) STFT (b) iSTFT
图 1 STFT 与 iSTFT 过程
Fig. 1 STFT and iSTFT processes
ӭូࠫᴏଽጊ
2 1 2 d
f θ(z)
2 iSTFT
Flow f θ
µ θ ֒ σ θ 1 ᝍᆊ٨
2
૯ܿ z
࠱ d
ᬤે፞
h text Ցᰎᎄᆊ٨
ᫎᮕ٨
MPDѼѿ٨
൵ࣀవ
x lin
ᎄᆊ٨ ̩ᝫጷ ጳভ៨ڏ
̩ေ ᄾ/Ϝ
c text
ߕᮃᓬ ᝫጷ֗ေ
图 2 ITHSS 的模型架构
Fig. 2 Model architecture of ITHSS