Page 138 - 《应用声学》2024年第1期
P. 138
134 2024 年 1 月
(2) 声强。由图2(b)可见:合成语声的声强均值 弯曲,韵尾走向平直,音节过渡区域几乎没有抖动,
约为83.06 dB,真实语声的声强均值约为83.06 dB。 见图 3(a) 中蓝色方框中无黑色实线;中性语声谐波
对比之下,可见真实语声声强均值小于合成语声,声 整体形态近乎平直,韵头、韵尾均有微小的弯曲,倾
强方差值要大于合成语声。这是因为真实语声往往 角较小,在音节过渡区域可见明显但幅度较小的抖
节奏多变,致使语声能量起伏输出、方差较大。但 动,见图 3(b) 蓝色方框中线条弯曲;悲伤语声整体
是语声的强度大小可受到声源设备等非语声自身 形态呈直线下降趋势,韵头、韵尾走向有些许弯曲,
因素决定,并非合成语声与真实语声的根本性差异。 过渡区域的抖动较小,见图 3(d) 蓝色方框中线条起
由此可知,可利用语声声强的变化程度作为区分合 伏弯曲;恐惧、开心、愤怒语声可见整体形态存在着
成语声与真实语声的可靠依据之一。 明显的、不同程度的倾斜和弯曲,呈下降趋势,韵头
(3) 窄带频谱图。由文献 [16] 以及图 3 可见:合 韵尾弯曲明显且程度大,音节过渡区域存在明显较
成语声 3000 Hz 以上频率的谐波存在着明显缺失, 大抖动,见图 3(c)、图 3(e)、图 3(f) 蓝色方框中线条
谐波总体形态平直无倾斜,韵头走向仅存在微小的 为曲线,且弯曲程度大。
5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000
2000
2000
1000 1000
0 0
0.18 1.15 0.25 1.35
ᫎ/s ᫎ/s
(a) Ռੇ (b) ˗ভ
5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000
2000
2000
1000 1000
0 0
0.22 0.99 0.28 1.60
ᫎ/s ᫎ/s
(c) ়৾ (d) ৬͞
5000 5000
4000 4000
ᮠဋ/Hz 3000 ᮠဋ/Hz 3000
2000
2000
1000 1000
0 0
0.2 1.2 0.12 0.87
ᫎ/s ᫎ/s
(e) नॷ (f) ਙড
图 3 合成语声与真实语声窄带频谱比对图
Fig. 3 The comparison of narrowband spectrogram of synthetic and real speech
由上述比对结果可知:在窄带频谱图谐波形态 靠依据之一。
方面,真实语声较合成语声的整体弯曲、倾斜程度
2 合成语声识别特征研究
更大,韵头韵尾弯曲程度明显更大,过渡区域的抖动
范围更大。因此,频谱图中反映的谐波形态、频谱分 表征声学特性的数据需进一步量化为声学特
布宽泛程度可作为区分合成语声与真实语声的可 征输入至构造的深度学习模型中,才能让机器实现