Page 9 - 《应用声学》2022年第6期
P. 9
第 41 卷 第 6 期 吴礼福等: 应对说话人位置突变的鲁棒语声去混响 855
表 1 实验参数设置 所示。从图中可以看出,过小的遗忘因子会严重影
Table 1 Experimental parameter setting 响算法的去混响效果,这是因为遗忘因子过小会导
致自适应算法在迭代过程中产生晚期混响过估计
参数名 符号 值
的问题,过多的消减掉了期望信号中的有用的语声
采样频率 f s 16 kHz
信号成分,从而导致语声信号失真,因此应选择较
窗长 512 (32 ms)
帧移 128 (8 ms) 大的遗忘因子。通过仿真验证,最终确定遗忘因子
预测延迟 D 3 λ = 0.995。
预测阶数 L g 20
时间遗忘因子 λ 0.9∼0.999 3.2.2 混响抑制性能分析
β 0.6 MFCC是一种优良的谱包络参数,MFCC在一
指数平滑因子
θ 0.9
定程度上模拟了人耳的听觉特性,所以基于 MFCC
阈值 ϵ 0.1 ms
的失真测度可以准确地体现出去混响语声的失真
初始条件 R −1 (n, k) 0.01 ∗ I
大小。把纯净语声作为参考信号,分别计算参考信
号与混响信号和去混响信号之间的 MFCC 失真距
0.16
离,记作 MFCC in 和 MFCC out ,然后两者做差便得
0.14
到∆MFCC,该值越大时,说明去混响效果越好。
0.12 从图 4(a) 中可以看出,在 6 s 时刻说话人位置
δ(t)/ms 0.10 突变后,∆MFCC 的值急剧下降,并且在 1 s 后才重
0.08
0.06 新趋于稳定,这说明说话人位置的突变影响了算法
0.04
的稳定性和去混响效果。图4(b)显示了具有说话人
0.02
位置突变检测的去混响信号的∆MFCC情况。相较
0
0 3 6 9 12
ᫎ/s 于图 4(a),可以明显看出,6 s 后图 4(b) 中 ∆MFCC
的值更快速地趋于稳定。这是因为具有说话人位置
图 2 时延的相对变化
突变检测的 RLS 去混响算法在 6 s 时成功检测到说
Fig. 2 Relative variation of time delay
话人的位置变化,然后算法重新初始化滤波器的更
3.2.1 遗忘因子选择 新,提高了算法的收敛速度,获得了更好的去混响效
为了确定最佳的遗忘因子大小,本文通过仿真 果。这说明具有说话人位置突变检测的去混响算法
验证了不同遗忘因子下算法的去混响性能,如图 3 有效提高了算法的鲁棒性。
ຉ־ηՂ ԝຉ־ηՂ ࣜదឭភ̡ͯᎶቊԫೝᄊԝຉ־ηՂ
2.2 2.2 2.2
2.0 2.0 2.0
1.8 1.8 1.8
PESQ 1.6 PESQ 1.6 PESQ 1.6
1.4 1.4 1.4
1.2 1.2 1.2
1.0 1.0 1.0
0.900 0.980 0.990 0.995 0.999 0.900 0.980 0.990 0.995 0.999 0.900 0.980 0.990 0.995 0.999
᥌ڂߕ λ ᥌ڂߕ λ ᥌ڂߕ λ
(a) T =300 ms (b) T =500 ms (c) T =800 ms
图 3 不同遗忘因子下的 PESQ 得分
Fig. 3 PESQ scores under different forgetting factors