Page 9 - 《应用声学》2022年第6期
P. 9

第 41 卷 第 6 期              吴礼福等: 应对说话人位置突变的鲁棒语声去混响                                           855


                           表 1   实验参数设置                        所示。从图中可以看出,过小的遗忘因子会严重影
                Table 1 Experimental parameter setting         响算法的去混响效果,这是因为遗忘因子过小会导
                                                               致自适应算法在迭代过程中产生晚期混响过估计
                    参数名            符号            值
                                                               的问题,过多的消减掉了期望信号中的有用的语声
                   采样频率            f s         16 kHz
                                                               信号成分,从而导致语声信号失真,因此应选择较
                     窗长                      512 (32 ms)
                     帧移                      128 (8 ms)        大的遗忘因子。通过仿真验证,最终确定遗忘因子
                   预测延迟            D             3             λ = 0.995。
                   预测阶数            L g           20
                  时间遗忘因子            λ         0.9∼0.999        3.2.2 混响抑制性能分析
                                    β           0.6                MFCC是一种优良的谱包络参数,MFCC在一
                  指数平滑因子
                                    θ           0.9
                                                               定程度上模拟了人耳的听觉特性,所以基于 MFCC
                     阈值             ϵ          0.1 ms
                                                               的失真测度可以准确地体现出去混响语声的失真
                   初始条件         R −1 (n, k)    0.01 ∗ I
                                                               大小。把纯净语声作为参考信号,分别计算参考信
                                                               号与混响信号和去混响信号之间的 MFCC 失真距
                   0.16
                                                               离,记作 MFCC in 和 MFCC out ,然后两者做差便得
                   0.14
                                                               到∆MFCC,该值越大时,说明去混响效果越好。
                   0.12                                            从图 4(a) 中可以看出,在 6 s 时刻说话人位置
                  δ(t)/ms  0.10                                突变后,∆MFCC 的值急剧下降,并且在 1 s 后才重
                   0.08
                   0.06                                        新趋于稳定,这说明说话人位置的突变影响了算法
                   0.04
                                                               的稳定性和去混响效果。图4(b)显示了具有说话人
                   0.02
                                                               位置突变检测的去混响信号的∆MFCC情况。相较
                     0
                      0       3       6      9       12
                                    ௑ᫎ/s                       于图 4(a),可以明显看出,6 s 后图 4(b) 中 ∆MFCC
                                                               的值更快速地趋于稳定。这是因为具有说话人位置
                           图 2  时延的相对变化
                                                               突变检测的 RLS 去混响算法在 6 s 时成功检测到说
                    Fig. 2 Relative variation of time delay
                                                               话人的位置变化,然后算法重新初始化滤波器的更
             3.2.1 遗忘因子选择                                      新,提高了算法的收敛速度,获得了更好的去混响效
                 为了确定最佳的遗忘因子大小,本文通过仿真                          果。这说明具有说话人位置突变检测的去混响算法

             验证了不同遗忘因子下算法的去混响性能,如图 3                           有效提高了算法的鲁棒性。

                                        ຉ־ηՂ      ԝຉ־ηՂ       ࣜదឭភ̡ͯᎶቊԫೝ฾ᄊԝຉ־ηՂ
                 2.2                            2.2                            2.2

                 2.0                            2.0                            2.0
                 1.8                            1.8                            1.8
                PESQ  1.6                      PESQ  1.6                      PESQ  1.6

                 1.4                            1.4                            1.4
                 1.2                            1.2                            1.2

                 1.0                            1.0                            1.0
                  0.900  0.980  0.990  0.995  0.999  0.900  0.980  0.990  0.995  0.999  0.900  0.980  0.990  0.995  0.999
                             ᥌঄ڂߕ λ                         ᥌঄ڂߕ λ                        ᥌঄ڂߕ λ
                          (a) T  =300 ms               (b) T  =500 ms               (c) T  =800 ms

                                               图 3  不同遗忘因子下的 PESQ 得分
                                       Fig. 3 PESQ scores under different forgetting factors
   4   5   6   7   8   9   10   11   12   13   14