Page 7 - 《应用声学》2022年第6期
P. 7
第 41 卷 第 6 期 吴礼福等: 应对说话人位置突变的鲁棒语声去混响 853
n T
的 24 ms)。结合式 (1) 和式 (2),期望信号 d m (n, k) ∑ n−τ X (τ − D, k)X (τ − D, k)
∗
R(n, k) = λ ,
2
可以用矩阵形式表示为 σ (τ, k)
τ=1
T
d m (n, k) = x m (n, k) − G (n, k)X(n − D, k), (3) (10)
n
∗
其 中, 预 测 滤 波 器 的 系 数 G(n, k) 和 语 声 信 号 ∑ n−τ X (τ − D, k)x m (τ, k)
P (n, k) = λ 2 , (11)
X(n − D, k)都是一个大小为ML g × 1的列向量, τ=1 σ (τ, k)
T 其中,符号 (·) 表示对矩阵取复共轭。
∗
G(n, k) = [g 1 (k), g 2 (k), · · · , g M (k)] , (4)
联立式 (9)∼(11) 可求得自适应滤波器系数
g m (k) = [g m (0, k), g m (1, k), · · · , g m (L g − 1, k)] ,
G(n, k)的表达式为
(5)
[ G(n, k) = R −1 (n, k)P (n, k). (12)
X(n − D, k) = x 1 (n − D, k), · · · ,
直接采用式 (10) 求解会涉及到对矩阵求逆的
x 1 (n − D − L g + 1, k) , · · · ,
问题,即求解R −1 (n, k),因此,本文采用递推算法来
x M (n − D, k), · · · ,
迭代计算逆矩阵,利用 Woodbury 求逆公式 [13] 得
] T
x M (n − D − L g + 1, k) . (6)
到如下基于RLS的自适应去混响算法:
期望信号 d m (n, k) 可以看作延时线性预测模
K(n, k) =
型中的预测误差,因此,通过计算预测滤波器在每 −1
R (n − 1, k)X (n − D, k)
∗
一帧的每一个频点 k 处的预测系数 G(n, k),然后应 2 T −1 ,
λσ (n, k) + X (n − D, k)R (n, k)X (n − D, k)
∗
用式 (3) 来实现最优滤波,达到语声信号去混响的 (13)
目的。 T
d m (n, k) = x m (n, k) − G (n − 1, k)X(n − D, k),
1.2 基于RLS的自适应语声去混响算法 (14)
T
T
根 据 文 献 [9], 基 于 加 权 递 归 最 小 二 乘 G (n, k)=G (n − 1, k)+K(n, k)d m (n, k), (15)
(Weighted recursive least squares, WRLS) 准则, R −1 (n, k) = λ −1 R −1 (n − 1, k) − λ −1 K(n, k)
求解时变的滤波器系数 G(n, k) 的代价函数可以 T −1
× X (n − D, k)R (n − 1, k). (16)
定义为
自适应算法根据式 (13)∼(16) 对观测信号进行
n 2
∑ |d m (τ, k)|
J(G(n, k)) = λ n−τ 迭代计算,实现去混响。其中,期望信号的方差
2
σ (τ, k)
τ=1 σ (n, k) 通过递归平滑的方式估计为
2
n T 2
∑ x m (τ, k) − G (τ, k)X(τ − D, k)
2
2
= λ n−τ , σ (n, k)=βσ (n − 1, k)+(1 − β) |d m (n, k)| ,
2
2
σ (τ, k)
τ=1 (17)
(7)
其中,β 为递归平滑因子。
式 (7) 中的 λ 为遗忘因子,取值范围为 0 < λ < 1。
σ (τ, k)为加权因子,是期望信号的方差。 2 说话人位置变化检测方法
2
令
虽然第1 节中描述的自适应去混响方法能够跟
∂J(G(n, k))
= 0, (8)
∂G(n, k) 踪 RIR 的缓慢变化,但话者切换或说话人位置突变
引起的 RIR 突然变化会使算法发散或者需要较长
得到
时间的迭代收敛。因此,为了更快速地跟踪 RIR 的
[ ]
n T
∗
∑ n−τ X (τ − D, k)X (τ − D, k)
λ G(n, k) 突然变化,去混响算法最好能检测到说话人位置的
2
σ (τ, k)
τ=1 突变,并重新初始化滤波器系数的更新。
n
∗
∑ X (τ − D, k)x m (τ, k)
= λ n−τ , (9) 基于 MCLP 的自适应去混响算法在对语声信
2
σ (τ, k)
τ=1 号去混响后,依然保留了声源与传声器阵列之间
再令式(9)中 的到达时间差 (Time difference of arrival, TDOA)