Page 7 - 《应用声学》2022年第6期
P. 7

第 41 卷 第 6 期              吴礼福等: 应对说话人位置突变的鲁棒语声去混响                                           853

                                                                           n                    T
             的 24 ms)。结合式 (1) 和式 (2),期望信号 d m (n, k)                      ∑   n−τ  X (τ − D, k)X (τ − D, k)
                                                                                    ∗
                                                                R(n, k) =    λ                             ,
                                                                                            2
             可以用矩阵形式表示为                                                                    σ (τ, k)
                                                                          τ=1
                                    T
              d m (n, k) = x m (n, k) − G (n, k)X(n − D, k), (3)                                         (10)
                                                                           n
                                                                                     ∗
             其 中, 预 测 滤 波 器 的 系 数 G(n, k) 和 语 声 信 号                       ∑    n−τ  X (τ − D, k)x m (τ, k)
                                                                 P (n, k) =   λ           2            , (11)
             X(n − D, k)都是一个大小为ML g × 1的列向量,                              τ=1            σ (τ, k)
                                              T                其中,符号 (·) 表示对矩阵取复共轭。
                                                                           ∗
              G(n, k) = [g 1 (k), g 2 (k), · · · , g M (k)] ,  (4)
                                                                   联立式 (9)∼(11) 可求得自适应滤波器系数
              g m (k) = [g m (0, k), g m (1, k), · · · , g m (L g − 1, k)] ,
                                                               G(n, k)的表达式为
                                                        (5)
                            [                                            G(n, k) = R −1 (n, k)P (n, k).  (12)
              X(n − D, k) = x 1 (n − D, k), · · · ,
                                                                   直接采用式 (10) 求解会涉及到对矩阵求逆的
                            x 1 (n − D − L g + 1, k) , · · · ,
                                                               问题,即求解R       −1 (n, k),因此,本文采用递推算法来
                            x M (n − D, k), · · · ,
                                                               迭代计算逆矩阵,利用 Woodbury 求逆公式                [13]  得
                                                 ] T
                            x M (n − D − L g + 1, k)  .  (6)
                                                               到如下基于RLS的自适应去混响算法:
                 期望信号 d m (n, k) 可以看作延时线性预测模
                                                                 K(n, k) =
             型中的预测误差,因此,通过计算预测滤波器在每                                          −1
                                                                           R   (n − 1, k)X (n − D, k)
                                                                                          ∗
             一帧的每一个频点 k 处的预测系数 G(n, k),然后应                         2          T           −1                  ,
                                                                 λσ (n, k) + X (n − D, k)R   (n, k)X (n − D, k)
                                                                                                    ∗
             用式 (3) 来实现最优滤波,达到语声信号去混响的                                                                   (13)
             目的。                                                                       T
                                                                 d m (n, k) = x m (n, k) − G (n − 1, k)X(n − D, k),
             1.2 基于RLS的自适应语声去混响算法                                                                        (14)
                                                                  T
                                                                             T
                 根 据 文 献 [9], 基 于 加 权 递 归 最 小 二 乘                G (n, k)=G (n − 1, k)+K(n, k)d m (n, k), (15)
             (Weighted recursive least squares, WRLS) 准则,        R −1 (n, k) = λ −1 R −1 (n − 1, k) − λ −1 K(n, k)
             求解时变的滤波器系数 G(n, k) 的代价函数可以                                         T           −1
                                                                           × X (n − D, k)R    (n − 1, k). (16)
             定义为
                                                                   自适应算法根据式 (13)∼(16) 对观测信号进行
                              n               2
                             ∑       |d m (τ, k)|
                J(G(n, k)) =    λ n−τ                          迭代计算,实现去混响。其中,期望信号的方差
                                       2
                                      σ (τ, k)
                             τ=1                               σ (n, k) 通过递归平滑的方式估计为
                                                                2
                 n                  T                  2
                ∑         x m (τ, k) − G (τ, k)X(τ − D, k)
                                                                                                        2
                                                                   2
              =     λ n−τ                                ,        σ (n, k)=βσ (n − 1, k)+(1 − β) |d m (n, k)| ,
                                                                             2
                                      2
                                     σ (τ, k)
                τ=1                                                                                      (17)
                                                        (7)
                                                               其中,β 为递归平滑因子。
             式 (7) 中的 λ 为遗忘因子,取值范围为 0 < λ < 1。
             σ (τ, k)为加权因子,是期望信号的方差。                           2 说话人位置变化检测方法
              2
                 令
                                                                   虽然第1 节中描述的自适应去混响方法能够跟
                            ∂J(G(n, k))
                                        = 0,            (8)
                             ∂G(n, k)                          踪 RIR 的缓慢变化,但话者切换或说话人位置突变
                                                               引起的 RIR 突然变化会使算法发散或者需要较长
             得到
                                                               时间的迭代收敛。因此,为了更快速地跟踪 RIR 的
               [                                  ]
                  n                    T
                           ∗
                 ∑   n−τ  X (τ − D, k)X (τ − D, k)
                    λ                               G(n, k)    突然变化,去混响算法最好能检测到说话人位置的
                                   2
                                  σ (τ, k)
                τ=1                                            突变,并重新初始化滤波器系数的更新。
                n
                          ∗
               ∑        X (τ − D, k)x m (τ, k)
             =     λ n−τ                    ,           (9)        基于 MCLP 的自适应去混响算法在对语声信
                               2
                              σ (τ, k)
               τ=1                                             号去混响后,依然保留了声源与传声器阵列之间
             再令式(9)中                                           的到达时间差 (Time difference of arrival, TDOA)
   2   3   4   5   6   7   8   9   10   11   12