Page 66 - 201901
P. 66
62 2019 年 1 月
{ } { }
∂ [d(n)] [ ] [ ] ∂ [d(n)]
2
2
3
E d (n) E d (n) − E d (n) E d(n)
∂J 2 (n) ∂g r m ∂g r m
= 3 5 . (14)
2
∂g r E 2 [d (n)]
m
结合公式(3),对于第i帧残差信号:
∂ [d(n)] T
= a X m (n), (15)
i
∂g r
m
[ T T ] T
其中,X m (n) = x (n), · · · , x (n − P) 。对第i帧残差信号的梯度进一步推导:
m m
[ 2 T ] [ 2 ] [ 3 ] [ T ]
∂J 2 (n) E d (n)a X m (n) E d (n) − E d (n) E d(n)a X m (n)
i
i
= 3 . (16)
3
∂g r m E 2 [d (n)]
2
为了进一步简化,忽略式 (16) 的时间依赖性,令 得到更新后的残差信号;以残差信号的偏度最大化
T
r m (n) = a X m (n),梯度近似为 为目标,通过梯度下降法更新房间脉冲响应逆滤波
i
∂J 2 (n) 器,迭代更新直至滤波器收敛,重构出逆滤波后的语
∂g m 声信号。
r
( 2 [ 2 ] [ 3 ] )
d (n)E d (n) − d(n)E d (n) 作为联合估计的替代,另外一种比较简单的
≈ 3 5 · r m (n)
2
E 2 [d (n)] 实现可以直接对观测信号进行线性预测预白化
= q(n) · r m (n). (17) 处理,在线性预测残差域上求解房间脉冲响应
逆滤波器。该方法可以认为近似于 MSJE 预测误
逆滤波器在频域进行更新。将更新后的线性预
差滤波器只迭代一次的情况。为了对比,将最
测残差信号 r m (n) 分成长度为 L 的块,并将每一块
大化线性预测残差偏度的多通道逆滤波语声去
补 0 至长度为 2L,对每一块计算长度为 2L 的傅里
混响方法记为 MLPRS-IF-MSD (Maximum linear
叶变换 (Fast Fourier transform, FFT)。将 q(n) 分
prediction residual skewness-based inverse filtering
成长度为 2L 的块,重叠 50%,对每一块计算长度为
for multichannel speech dereverberation),简化为
2L 的FFT。设分块个数为 T,得到频域自适应更新
MLPRS。
方程:
T
µ ∑ H 2 仿真和实验研究
r
′r+1
G = G + Q j R , (18)
m m mj
T
j=1
2.1 仿真
G ′r+1
r+1
G = , (19) 采用镜像法 [17] 得到的4通道的RIR,声源信号
|G ′r+1 |
由TIMIT数据库中选取的100段男声和100段女声
其中,G 、Q j 、R mj 分别为第 r 次迭代的 g m 、q j 、
r
m 语声段构成,将其与不同混响时间的 RIR 卷积得到
r mj 的FFT。公式 (19) 对更新后的逆滤波器进行归
混响语声信号。在模型中,4个传声器分布在尺寸为
T
一化,保证滤波器的收敛。G 0 = [1, · · · , 1] 。这里 5.5 m × 4.5 m × 3.5 m的矩形房间内。声源(红色圆
m
逆滤波器通过对20 s混响语声信号进行估计得到。
点) 与传声器阵列 (灰色圆点) 在房间内的分布示意
1.5 联合估计策略 图如图2所示,传声器间隔0.2 cm按线型摆放,与声
上述目标函数的简化以及迭代估计两个逆滤 源距离d 0 = 3.3 m。
波器需要基于如下假设:当g 固定时,最小化二阶项 混响时间和声学比是影响混响声场中的语言
的同时也会使整体目标函数最小化;同理,当a固定 清晰度的两个独立参量,混响声场中的清晰度与
时,最大化三阶项也会使整体目标函数最小化。根 混响时间 (RT 60 ) 和声学比乘积的对数成反比变
据以上分析,迭代更新预测误差滤波器和房间脉冲 化 [18] 。混响时间增加和声源距传声器距离增大都
响应逆滤波器。对观测信号,首先通过房间脉冲响 会独立地增加混响强度 [19] ,RT 60 会导致语声频谱
应逆滤波器进行逆滤波后,再通过预测误差滤波器, 模糊,而d 的增加会引起谱染色。在本实验中,我们