Page 67 - 201901

P. 67

第 38 卷第 1 期郭颖等：偏度最大化多通道逆滤波语声去混响研究 63

考虑固定声源到传声器的距离d，改变RT 60 的大小，则相比于峰度准则最小滤波器阶数也有明显的下
评价不同混响强度下的算法去混响性能。以下实验降；采用联合估计的 MSJE 方法可以进一步减少滤
中帧长N 取512 (32 ms)，步长µ设为 e −9 。波器阶数。滤波器阶数越少，算法的计算复杂度也
会降低。
2.1.2 混响抑制性能分析
为了评估本文算法的混响抑制性能，这里采
3
用直达 -反射路径能量比 (Direct-to-reverberation
2
z/m ratio, DRR) 和主观语声质量评估 [20] (Perceptual
1
evaluation of speech quality, PESQ) 作为衡量指
0
4 标，用于比较本文方法和 Gillespie 等 [11] 提出的峰
3 4
2 2 度最大化多通道逆滤波语声去混响方法 (以下简称
1 x/m
y/m
0 0 峰度算法)。DRR可以用公式(20)进行计算：
 
图 2 传声器位置示意图 n d +n 0 2
∑
Fig. 2 Diagram of the microphone position  h (n) 
 
 n=n d −n 0 
 ,
2.1.1 滤波器阶数选择 DRR = 10 lg  n d −n 0 ∑ 
∞
 ∑
h (n) + h (n)
 2 2 
滤波器的阶数 L 理论上应与混响时间 (RIR 的
n=0 n=n d +n 0
样本点数) 对应，即 L = RT 60 (s) × f s (Hz)，其中采 (20)
样率 f s = 16000 Hz。混响时间越长，滤波器长度也其中，直达信号在第 n d 个采样点到达，直达路径
相应的增加。而且，滤波器阶数增加会导致计算复的能量用冲激响应峰值周围 8 ms (即 n 0 = 128 个
杂度增加；滤波器阶数增加，逆滤波后信号的延迟也采样点) 的信号能量计算。因此，DRR 通过直达路
会增加 (RIR 与逆滤波器的卷积会使逆滤波后的冲径能量与反射路径的总能量的比值来计算。图 3 为
激响应与原 RIR 之间存在近似 L 的延迟)。因此滤 RT 60 = 1 s 时，测试语声信号在 0∼4 kHz 部分的语
波器阶数的选择应该在理论值的基础上，结合实际谱图及逆滤波后的房间脉冲响应。
效果选择尽量小的值且能保证逆滤波的性能。本文本文研究的方法均为在房间脉冲响应未知情
通过实验验证，给出一定混响时间范围的最小滤波况下的多通道盲逆滤波算法，这里给出房间脉冲响
器阶数。文献 [14] 给出了单通道线性预测残差偏度应仅为了分析和比较逆滤波的结果。从图 3 中的语
逆滤波算法的最小滤波器阶数。表1 给出本文提出谱图可以看出，对于 RT 60 = 1 s 混响时间比较长的
的MLPRS和MSJE算法的最小滤波器阶数。情况，已有的多通道峰度准则方法表现一般。而用

本文提出的多通道偏度准则方法 (图 3(c)，图 3(d))
表 1 不同混响时间下的滤波器阶数选择
语谱图的模糊程度明显下降，模糊的频谱结构变得
Table 1 Selection of ﬁlter order for diﬀer-
清晰，采用联合估计的多通道偏度算法表现出了更
ent reverberation times
好的结果。从房间脉冲响应的逆滤波结果来看，三
RT 60 /ms 种方法逆滤波后的RIR均有比较明显的单一峰值。
算法类型
100∼500 600∼900 1000∼1500 图4给出了本文提出算法在不同混响时间下的
单通道偏度 2000 4000 6000
平均 DRR 及PESQ得分。在混响时间较短时，基于
多通道峰度 1000 2000 3000
峰度的方法与本文提出的基于偏度的方法结果相
MLPRS 1000 1500 2000
近；而当混响时间较长时，本文提出的基于偏度的方
MSJE 800 1000 1500
法要明显优于基于峰度的方法，且随着混响时间的
对比本文方法和已有的单通道偏度准则方法，增加，这种优势会越明显。且本文提出的 MSJE 在
利用多通道数据可以有效减少滤波器阶数，而且算不同混响时间下的DRR整体优于MLPRS。
法对滤波器阶数的选择不敏感；同时，采用偏度准比较本文提出的两个算法与峰度算法的PESQ

62 63 64 65 66 67 68 69 70 71 72