Page 137 - 《应用声学》2024年第1期

P. 137

第 43 卷第 1 期周峻林等：合成语声的声学分析及识别特征算法 133

息、部分频带特性 5 个方面进行设计和持续改进的。 1.2 声学研究结果
但是由于目前计算机对于人类语声的感知学习能对合成语声与真实语声的基频、声强、窄带频
力是有限的，现有成果针对合成语声的声学特性表谱图 3 类声学特性进行比对以及结果分析，其中真
现研究较少，针对合成语声同真实语声在听感上存实语声包含中性、愤怒、恐惧、开心、悲伤 5 种情感。
在的韵律平淡、自然度欠缺的特点所设计的特征较这是因为人类往往是在不同情感状态下进行发声
少，且不同特征间的融合探索还可以进一步加强。的，使用不同的情感语声将能更全面地代表人类语
声的真实发声情况。分别提取 90 条合成语声与 90
1 合成与真实语声的声学差异分析条真实语声中的基频和声强数据，求取均值和方差

值的总体均值，统计结果如图2、图3所示。
本节通过剖析比对合成语声同真实语声在声
总结合成语声与真实语声在声学特性中的表
学特性上的差异，开展声学分析，从而证实两者差异
现差异如下：
是可通过声学特性进行体现的。
(1) 基频。由图 2(a) 可见：合成语声的基频均
1.1 声学研究过程值约为 170.75 Hz，而真实语声的基频均值约为

本文通过使用语声学分析软件Praat 对比计算 257.98 Hz；合成语声基频方差值约为44.57，真实语
机合成的语声、人类真实语声的各项声学特性，生声基频方差值却为 1849.83。对比之下，可见真实语
成相关图表，分析数据上的差异，从而找到可用以区声基频均值和方差值均大于合成语声，其中方差值
分合成语声和真实语声的依据。其中真实语声来自要远大于合成语声。这是因为人类真实语声往往会
于TESS数据集 [14] ，合成语声来自于利用Jia等 [15] 受多方面影响而起伏波动，比如在某些激烈的情绪
提出的说话人风格迁移的方法和 SV2TTS 模型在条件下，声调变化程度也会加剧，使得基频方差要明
真实语声的基础上进行合成。两者在语义信息、说显大于合成语声。因此，可利用声调的变化程度作
话人声音特点上保持了一致。为区分合成语声与真实语声的可靠依据之一。
研究具体过程如图 1 所示。首先在语声数据集
1849.827498
中选取出真实语声；随后提取出真实语声的文本信 1849.83
息与说话人声音特点，融入至用于语声合成的神经
1000
网络模型中，得到满足比对条件的合成语声和真实 800 257.9823182
257.98
语声样本；再依次通过不同的软件进行语声标注、数 /Hz 600
170.7470758
170.75
400
据提取、绘制图表，得到声学特性的数据统计结果； 44.570
44.5730412
200
最后经过分析，得到结论。 0

஝૶ᬷ ឦܦᮃጉ (a)
ᤥၹ
ᄾࠄឦܦನవ SV2TTSᎪፏവی 62.92
83.06
ଢԩ
80
ឭភ̡ܦᮃྲག+ឦ˧ηৌ
60 13.30
ܦू/dB 40
͢ᤵឦܦನవ
20 6.61
SPPASᣄ͈ឦܦಖฌ
0

Praatᣄ͈ܦߦྲভଢԩ
(b) ܦू
ፒᝠ஝૶ፋ҄ڏ᛫ 图 2 合成与真实语声的基频、声强均值及方差数据
统计图
Ѭౢࣀपࣳ঴ፇ᜻॥
Fig. 2 The statistical graph of the mean and
图 1 声学研究流程 variance data of the fundamental frequency and
Fig. 1 The process of acoustic research speech intensity of the synthetic and real speech

132 133 134 135 136 137 138 139 140 141 142