Page 138 - 《应用声学》2024年第1期

P. 138

134 2024 年 1 月

(2) 声强。由图2(b)可见：合成语声的声强均值弯曲，韵尾走向平直，音节过渡区域几乎没有抖动，
约为83.06 dB，真实语声的声强均值约为83.06 dB。见图 3(a) 中蓝色方框中无黑色实线；中性语声谐波
对比之下，可见真实语声声强均值小于合成语声，声整体形态近乎平直，韵头、韵尾均有微小的弯曲，倾
强方差值要大于合成语声。这是因为真实语声往往角较小，在音节过渡区域可见明显但幅度较小的抖
节奏多变，致使语声能量起伏输出、方差较大。但动，见图 3(b) 蓝色方框中线条弯曲；悲伤语声整体
是语声的强度大小可受到声源设备等非语声自身形态呈直线下降趋势，韵头、韵尾走向有些许弯曲，
因素决定，并非合成语声与真实语声的根本性差异。过渡区域的抖动较小，见图 3(d) 蓝色方框中线条起
由此可知，可利用语声声强的变化程度作为区分合伏弯曲；恐惧、开心、愤怒语声可见整体形态存在着
成语声与真实语声的可靠依据之一。明显的、不同程度的倾斜和弯曲，呈下降趋势，韵头
(3) 窄带频谱图。由文献 [16] 以及图 3 可见：合韵尾弯曲明显且程度大，音节过渡区域存在明显较
成语声 3000 Hz 以上频率的谐波存在着明显缺失，大抖动，见图 3(c)、图 3(e)、图 3(f) 蓝色方框中线条
谐波总体形态平直无倾斜，韵头走向仅存在微小的为曲线，且弯曲程度大。

5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000
2000
2000
1000 1000
0 0
0.18 1.15 0.25 1.35
௑ᫎ/s ௑ᫎ/s
(a) Ռੇ (b) ˗ভ
5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000

2000
2000
1000 1000
0 0
0.22 0.99 0.28 1.60
௑ᫎ/s ௑ᫎ/s
(c) ়৾ (d) ৬͞

5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000
2000
2000
1000 1000
0 0
0.2 1.2 0.12 0.87
௑ᫎ/s ௑ᫎ/s
(e) नॷ (f) ਙড
图 3 合成语声与真实语声窄带频谱比对图
Fig. 3 The comparison of narrowband spectrogram of synthetic and real speech

由上述比对结果可知：在窄带频谱图谐波形态靠依据之一。
方面，真实语声较合成语声的整体弯曲、倾斜程度
2 合成语声识别特征研究
更大，韵头韵尾弯曲程度明显更大，过渡区域的抖动
范围更大。因此，频谱图中反映的谐波形态、频谱分表征声学特性的数据需进一步量化为声学特
布宽泛程度可作为区分合成语声与真实语声的可征输入至构造的深度学习模型中，才能让机器实现

133 134 135 136 137 138 139 140 141 142 143