Page 67 - 201901
P. 67

第 38 卷 第 1 期               郭颖等: 偏度最大化多通道逆滤波语声去混响研究                                           63


             考虑固定声源到传声器的距离d,改变RT 60 的大小,                       则相比于峰度准则最小滤波器阶数也有明显的下
             评价不同混响强度下的算法去混响性能。以下实验                            降;采用联合估计的 MSJE 方法可以进一步减少滤
             中帧长N 取512 (32 ms),步长µ设为 e          −9 。           波器阶数。滤波器阶数越少,算法的计算复杂度也
                                                               会降低。
                                                               2.1.2 混响抑制性能分析
                                                                   为了评估本文算法的混响抑制性能,这里采
                      3
                                                               用直达 -反射路径能量比 (Direct-to-reverberation
                      2
                     z/m                                       ratio, DRR) 和主观语声质量评估            [20] (Perceptual
                      1
                                                               evaluation of speech quality, PESQ) 作为衡量指
                      0
                       4                                       标,用于比较本文方法和 Gillespie 等           [11]  提出的峰
                         3                     4
                            2            2                     度最大化多通道逆滤波语声去混响方法 (以下简称
                              1           x/m
                         y/m
                                 0  0                          峰度算法)。DRR可以用公式(20)进行计算:
                                                                                                        
                          图 2  传声器位置示意图                                               n d +n 0  2
                                                                                       ∑
                  Fig. 2 Diagram of the microphone position                                 h (n)       
                                                                                                        
                                                                                    n=n d −n 0          
                                                                                                          ,
             2.1.1 滤波器阶数选择                                      DRR = 10 lg   n d −n 0       ∑          
                                                                                               ∞
                                                                             ∑
                                                                                    h (n) +        h (n)
                                                                                    2               2   
                 滤波器的阶数 L 理论上应与混响时间 (RIR 的
                                                                               n=0          n=n d +n 0
             样本点数) 对应,即 L = RT 60 (s) × f s (Hz),其中采                                                     (20)
             样率 f s = 16000 Hz。混响时间越长,滤波器长度也                   其中,直达信号在第 n d 个采样点到达,直达路径
             相应的增加。而且,滤波器阶数增加会导致计算复                            的能量用冲激响应峰值周围 8 ms (即 n 0 = 128 个
             杂度增加;滤波器阶数增加,逆滤波后信号的延迟也                           采样点) 的信号能量计算。因此,DRR 通过直达路
             会增加 (RIR 与逆滤波器的卷积会使逆滤波后的冲                         径能量与反射路径的总能量的比值来计算。图 3 为
             激响应与原 RIR 之间存在近似 L 的延迟)。因此滤                       RT 60 = 1 s 时,测试语声信号在 0∼4 kHz 部分的语
             波器阶数的选择应该在理论值的基础上,结合实际                            谱图及逆滤波后的房间脉冲响应。
             效果选择尽量小的值且能保证逆滤波的性能。本文                                本文研究的方法均为在房间脉冲响应未知情
             通过实验验证,给出一定混响时间范围的最小滤波                            况下的多通道盲逆滤波算法,这里给出房间脉冲响
             器阶数。文献 [14] 给出了单通道线性预测残差偏度                        应仅为了分析和比较逆滤波的结果。从图 3 中的语
             逆滤波算法的最小滤波器阶数。表1 给出本文提出                           谱图可以看出,对于 RT 60 = 1 s 混响时间比较长的
             的MLPRS和MSJE算法的最小滤波器阶数。                            情况,已有的多通道峰度准则方法表现一般。而用

                                                               本文提出的多通道偏度准则方法 (图 3(c),图 3(d))
                   表 1  不同混响时间下的滤波器阶数选择
                                                               语谱图的模糊程度明显下降,模糊的频谱结构变得
                Table 1 Selection of filter order for differ-
                                                               清晰,采用联合估计的多通道偏度算法表现出了更
                ent reverberation times
                                                               好的结果。从房间脉冲响应的逆滤波结果来看,三
                                      RT 60 /ms                种方法逆滤波后的RIR均有比较明显的单一峰值。
                 算法类型
                            100∼500  600∼900   1000∼1500           图4给出了本文提出算法在不同混响时间下的
                 单通道偏度       2000      4000      6000
                                                               平均 DRR 及PESQ得分。在混响时间较短时,基于
                 多通道峰度       1000      2000      3000
                                                               峰度的方法与本文提出的基于偏度的方法结果相
                  MLPRS      1000      1500      2000
                                                               近;而当混响时间较长时,本文提出的基于偏度的方
                  MSJE        800      1000      1500
                                                               法要明显优于基于峰度的方法,且随着混响时间的
                 对比本文方法和已有的单通道偏度准则方法,                          增加,这种优势会越明显。且本文提出的 MSJE 在
             利用多通道数据可以有效减少滤波器阶数,而且算                            不同混响时间下的DRR整体优于MLPRS。
             法对滤波器阶数的选择不敏感;同时,采用偏度准                                比较本文提出的两个算法与峰度算法的PESQ
   62   63   64   65   66   67   68   69   70   71   72