Page 137 - 《应用声学》2024年第1期
P. 137
第 43 卷 第 1 期 周峻林等: 合成语声的声学分析及识别特征算法 133
息、部分频带特性 5 个方面进行设计和持续改进的。 1.2 声学研究结果
但是由于目前计算机对于人类语声的感知学习能 对合成语声与真实语声的基频、声强、窄带频
力是有限的,现有成果针对合成语声的声学特性表 谱图 3 类声学特性进行比对以及结果分析,其中真
现研究较少,针对合成语声同真实语声在听感上存 实语声包含中性、愤怒、恐惧、开心、悲伤 5 种情感。
在的韵律平淡、自然度欠缺的特点所设计的特征较 这是因为人类往往是在不同情感状态下进行发声
少,且不同特征间的融合探索还可以进一步加强。 的,使用不同的情感语声将能更全面地代表人类语
声的真实发声情况。分别提取 90 条合成语声与 90
1 合成与真实语声的声学差异分析 条真实语声中的基频和声强数据,求取均值和方差
值的总体均值,统计结果如图2、图3所示。
本节通过剖析比对合成语声同真实语声在声
总结合成语声与真实语声在声学特性中的表
学特性上的差异,开展声学分析,从而证实两者差异
现差异如下:
是可通过声学特性进行体现的。
(1) 基频。由图 2(a) 可见:合成语声的基频均
1.1 声学研究过程 值约为 170.75 Hz,而真实语声的基频均值约为
本文通过使用语声学分析软件Praat 对比计算 257.98 Hz;合成语声基频方差值约为44.57,真实语
机合成的语声、人类真实语声的各项声学特性,生 声基频方差值却为 1849.83。对比之下,可见真实语
成相关图表,分析数据上的差异,从而找到可用以区 声基频均值和方差值均大于合成语声,其中方差值
分合成语声和真实语声的依据。其中真实语声来自 要远大于合成语声。这是因为人类真实语声往往会
于TESS数据集 [14] ,合成语声来自于利用Jia等 [15] 受多方面影响而起伏波动,比如在某些激烈的情绪
提出的说话人风格迁移的方法和 SV2TTS 模型在 条件下,声调变化程度也会加剧,使得基频方差要明
真实语声的基础上进行合成。两者在语义信息、说 显大于合成语声。因此,可利用声调的变化程度作
话人声音特点上保持了一致。 为区分合成语声与真实语声的可靠依据之一。
研究具体过程如图 1 所示。首先在语声数据集
1849.827498
中选取出真实语声;随后提取出真实语声的文本信 1849.83
息与说话人声音特点,融入至用于语声合成的神经
1000
网络模型中,得到满足比对条件的合成语声和真实 800 257.9823182
257.98
语声样本;再依次通过不同的软件进行语声标注、数 /Hz 600
170.7470758
170.75
400
据提取、绘制图表,得到声学特性的数据统计结果; 44.570
44.5730412
200
最后经过分析,得到结论。 0
ᬷ ឦܦᮃጉ (a)
ᤥၹ
ᄾࠄឦܦನవ SV2TTSᎪፏവی 62.92
83.06
ଢԩ
80
ឭភ̡ܦᮃྲག+ឦ˧ηৌ
60 13.30
ܦू/dB 40
͢ᤵឦܦನవ
20 6.61
SPPASᣄ͈ឦܦಖฌ
0
Praatᣄ͈ܦߦྲভଢԩ
(b) ܦू
ፒᝠፋ҄ڏ᛫ 图 2 合成与真实语声的基频、声强均值及方差数据
统计图
Ѭౢࣀपࣳፇ॥
Fig. 2 The statistical graph of the mean and
图 1 声学研究流程 variance data of the fundamental frequency and
Fig. 1 The process of acoustic research speech intensity of the synthetic and real speech