Page 139 - 《应用声学》2024年第1期
P. 139
第 43 卷 第 1 期 周峻林等: 合成语声的声学分析及识别特征算法 135
自动化识别合成语声。本节针对声学比对结果,对 号的真实强度大小,有利于提取出周期性变化的语
不同的声学特性差异开展了特征量化,设计选用不 声信号的每一帧能量,而每一帧的语声能量有效值
同的声学特征及其结合开展实验,以验证性能。 则能够较好地表征出信号在较短时间段内的能量
大小。图4为语声信号的RMS能量可视化。可见经
2.1 特征化声学特性
过计算 RMS 能量值大小,将语声信号的起伏程度
特征化声学特性的步骤是:(1) 依据声学实验
以数值上变化的形式有效表征出来,为下一步提取
结果得到所需数据;(2) 依据数据特点,设计特定算
声强变化率提供了计算条件。
法;(3) 利用特定算法处理声学数据;(4) 对数据进
行变换,突出高价值部分。最终表征出对合成语声 1.00
识别任务具有针对性的特征。 0.75
0.50
本文设计了均方根角 (Root mean square an-
0.25
gle, RMSA) 特征,一种能够反映声强变化程度的 ࣨ
声学特征。选取能够反映出基频变化程度、语声频 0
-0.25
谱特性的声学特征,分别为 FFV 特征、语声窄带
-0.50
频谱图 (Speech narrowband spectrogram, SNS) 特
-0.75
征。其中RMSA与FFV特征为时域特征,包含时序 0 10000 20000 30000 40000
ᫎ/s
信息;SNS 特征为频域特征,包含频谱信息。进一步
(a) RMSᑟ᧚ᄊࣨڏ
结合3种特征,将能更加适用于合成语声识别任务。
0.30
2.1.1 RMSA特征 0.25
本文提出RMSA特征的具体过程如下: 0.20
(1) 语声数据获取。输入语声,经过 16000 Hz ᡑ͒ሮए 0.15
采样和8位量化提取语声数字信号。
0.10
(2) 计算语声均方根(Root mean square, RMS)
0.05
能量。首先对语声信号进行分帧处理,其中每帧包
0
含 2048 个采样点,帧与帧间的重叠部分包含 512 个
0 25 50 75 100 125 150 175
采样点,再计算每帧语声信号RMS能量,如公式(1) ᫎևర/s
所示: (b) RMSᑟ᧚ᄊևరԫӑᡖҹڏ
√ 图 4 RMS 能量可视化
1 ∑ 2
E k = x K (i) . (1) Fig. 4 RMS energy visualization
N K
(3) 向量化输入数据。为使一维时序型数据变 为量化合成语声与真实语声的声强的变化程
换为二维数据,向原数据中加入时间点数据作为维 度不同,本文进一步计算了相邻 RMS 能量数据间
度一,维度二为该点的数值。 的余弦夹角,如图 5 所示。这样做可以提高数据精
(4) 计算相邻向量间的余弦距离,如公式 (2) 细度,放大相邻数据差异大的部分,缩小差异小的部
所示: 分,降低数据的平滑度,从而增强数据的特点。这是
因为自然语声在发声过程中,往往是起伏较大、律感
k x · k x+1
d(k x , k x+1 ) = 1 − . (2)
∥k x ∥ ∗ ∥k x+1 ∥ 十足的,剧烈波动对声强的影响往往较大,相邻向量
(5) 最后根据计算的余弦距离 d,得出夹角余 间的夹角度数扩大的程度较大,而合成语声的声强
弦值,利用反余弦函数计算对应的夹角度数,得到 则会偏于平稳发声,这使得两个相邻向量之间的夹
RMSA 特征,计算过程表示如公式(3)所示: 角变化较小。因此经过计算得到两个相邻向量间的
夹角大小,可以用以衡量数据点之间的差值大小,可
α k = arccos [1 − d (k x , k x+1 )] . (3)
以量化语声在声强声学特性上体现的起伏程度。由
本文通过利用 RMS 能量的计算方式作为特定 图 5 可见,下个时间点的数值较当前时间点的增加
处理算法表征声强,能够更为准确地表征出语声信 得越多,则两者夹角α 越大,并且夹角的增幅越大。