Page 66 - 201901
P. 66

62                                                                                   2019 年 1 月

                                         {            }                       {            }
                                               ∂ [d(n)]   [     ]    [     ]        ∂ [d(n)]
                                                            2
                                           2
                                                                       3
                                       E d (n)          E d (n) − E d (n) E d(n)
                            ∂J 2 (n)             ∂g r m                               ∂g r m
                                   = 3                         5                             .           (14)
                                                                  2
                             ∂g r                            E 2 [d (n)]
                                m
             结合公式(3),对于第i帧残差信号:
                                                   ∂ [d(n)]   T
                                                           = a X m (n),                                  (15)
                                                              i
                                                     ∂g r
                                                       m
                           [  T         T       ] T
             其中,X m (n) = x (n), · · · , x (n − P)  。对第i帧残差信号的梯度进一步推导:
                             m          m
                                        [  2   T       ]  [  2  ]    [  3  ]  [      T      ]
                            ∂J 2 (n)  E d (n)a X m (n) E d (n) − E d (n) E d(n)a X m (n)
                                               i
                                                                                     i
                                   = 3                                                        .          (16)
                                                               3
                             ∂g r m                          E 2 [d (n)]
                                                                  2
             为了进一步简化,忽略式 (16) 的时间依赖性,令                         得到更新后的残差信号;以残差信号的偏度最大化
                      T
             r m (n) = a X m (n),梯度近似为                         为目标,通过梯度下降法更新房间脉冲响应逆滤波
                      i
                ∂J 2 (n)                                       器,迭代更新直至滤波器收敛,重构出逆滤波后的语
                 ∂g m                                          声信号。
                    r
                  (  2    [  2  ]         [  3  ] )
                   d (n)E d (n) − d(n)E d (n)                      作为联合估计的替代,另外一种比较简单的
              ≈ 3              5                   · r m (n)
                                  2
                             E 2 [d (n)]                       实现可以直接对观测信号进行线性预测预白化
              = q(n) · r m (n).                        (17)    处理,在线性预测残差域上求解房间脉冲响应
                                                               逆滤波器。该方法可以认为近似于 MSJE 预测误
                 逆滤波器在频域进行更新。将更新后的线性预
                                                               差滤波器只迭代一次的情况。为了对比,将最
             测残差信号 r m (n) 分成长度为 L 的块,并将每一块
                                                               大化线性预测残差偏度的多通道逆滤波语声去
             补 0 至长度为 2L,对每一块计算长度为 2L 的傅里
                                                               混响方法记为 MLPRS-IF-MSD (Maximum linear
             叶变换 (Fast Fourier transform, FFT)。将 q(n) 分
                                                               prediction residual skewness-based inverse filtering
             成长度为 2L 的块,重叠 50%,对每一块计算长度为
                                                               for multichannel speech dereverberation),简化为
             2L 的FFT。设分块个数为 T,得到频域自适应更新
                                                               MLPRS。
             方程:
                                       T
                                    µ  ∑      H                2 仿真和实验研究
                                r
                        ′r+1
                      G     = G +         Q j R  ,     (18)
                        m       m             mj
                                    T
                                      j=1
                                                               2.1  仿真
                               G ′r+1
                        r+1
                      G     =        ,                 (19)        采用镜像法      [17]  得到的4通道的RIR,声源信号
                              |G ′r+1 |
                                                               由TIMIT数据库中选取的100段男声和100段女声
             其中,G 、Q j 、R mj 分别为第 r 次迭代的 g m 、q j 、
                    r
                    m                                          语声段构成,将其与不同混响时间的 RIR 卷积得到
             r mj 的FFT。公式 (19) 对更新后的逆滤波器进行归
                                                               混响语声信号。在模型中,4个传声器分布在尺寸为
                                                   T
             一化,保证滤波器的收敛。G            0  = [1, · · · , 1] 。这里  5.5 m × 4.5 m × 3.5 m的矩形房间内。声源(红色圆
                                      m
             逆滤波器通过对20 s混响语声信号进行估计得到。
                                                               点) 与传声器阵列 (灰色圆点) 在房间内的分布示意
             1.5 联合估计策略                                        图如图2所示,传声器间隔0.2 cm按线型摆放,与声
                 上述目标函数的简化以及迭代估计两个逆滤                           源距离d 0 = 3.3 m。
             波器需要基于如下假设:当g 固定时,最小化二阶项                              混响时间和声学比是影响混响声场中的语言
             的同时也会使整体目标函数最小化;同理,当a固定                           清晰度的两个独立参量,混响声场中的清晰度与
             时,最大化三阶项也会使整体目标函数最小化。根                            混响时间 (RT 60 ) 和声学比乘积的对数成反比变
             据以上分析,迭代更新预测误差滤波器和房间脉冲                            化 [18] 。混响时间增加和声源距传声器距离增大都
             响应逆滤波器。对观测信号,首先通过房间脉冲响                            会独立地增加混响强度            [19] ,RT 60 会导致语声频谱
             应逆滤波器进行逆滤波后,再通过预测误差滤波器,                           模糊,而d 的增加会引起谱染色。在本实验中,我们
   61   62   63   64   65   66   67   68   69   70   71