Page 67 - 201901
P. 67
第 38 卷 第 1 期 郭颖等: 偏度最大化多通道逆滤波语声去混响研究 63
考虑固定声源到传声器的距离d,改变RT 60 的大小, 则相比于峰度准则最小滤波器阶数也有明显的下
评价不同混响强度下的算法去混响性能。以下实验 降;采用联合估计的 MSJE 方法可以进一步减少滤
中帧长N 取512 (32 ms),步长µ设为 e −9 。 波器阶数。滤波器阶数越少,算法的计算复杂度也
会降低。
2.1.2 混响抑制性能分析
为了评估本文算法的混响抑制性能,这里采
3
用直达 -反射路径能量比 (Direct-to-reverberation
2
z/m ratio, DRR) 和主观语声质量评估 [20] (Perceptual
1
evaluation of speech quality, PESQ) 作为衡量指
0
4 标,用于比较本文方法和 Gillespie 等 [11] 提出的峰
3 4
2 2 度最大化多通道逆滤波语声去混响方法 (以下简称
1 x/m
y/m
0 0 峰度算法)。DRR可以用公式(20)进行计算:
图 2 传声器位置示意图 n d +n 0 2
∑
Fig. 2 Diagram of the microphone position h (n)
n=n d −n 0
,
2.1.1 滤波器阶数选择 DRR = 10 lg n d −n 0 ∑
∞
∑
h (n) + h (n)
2 2
滤波器的阶数 L 理论上应与混响时间 (RIR 的
n=0 n=n d +n 0
样本点数) 对应,即 L = RT 60 (s) × f s (Hz),其中采 (20)
样率 f s = 16000 Hz。混响时间越长,滤波器长度也 其中,直达信号在第 n d 个采样点到达,直达路径
相应的增加。而且,滤波器阶数增加会导致计算复 的能量用冲激响应峰值周围 8 ms (即 n 0 = 128 个
杂度增加;滤波器阶数增加,逆滤波后信号的延迟也 采样点) 的信号能量计算。因此,DRR 通过直达路
会增加 (RIR 与逆滤波器的卷积会使逆滤波后的冲 径能量与反射路径的总能量的比值来计算。图 3 为
激响应与原 RIR 之间存在近似 L 的延迟)。因此滤 RT 60 = 1 s 时,测试语声信号在 0∼4 kHz 部分的语
波器阶数的选择应该在理论值的基础上,结合实际 谱图及逆滤波后的房间脉冲响应。
效果选择尽量小的值且能保证逆滤波的性能。本文 本文研究的方法均为在房间脉冲响应未知情
通过实验验证,给出一定混响时间范围的最小滤波 况下的多通道盲逆滤波算法,这里给出房间脉冲响
器阶数。文献 [14] 给出了单通道线性预测残差偏度 应仅为了分析和比较逆滤波的结果。从图 3 中的语
逆滤波算法的最小滤波器阶数。表1 给出本文提出 谱图可以看出,对于 RT 60 = 1 s 混响时间比较长的
的MLPRS和MSJE算法的最小滤波器阶数。 情况,已有的多通道峰度准则方法表现一般。而用
本文提出的多通道偏度准则方法 (图 3(c),图 3(d))
表 1 不同混响时间下的滤波器阶数选择
语谱图的模糊程度明显下降,模糊的频谱结构变得
Table 1 Selection of filter order for differ-
清晰,采用联合估计的多通道偏度算法表现出了更
ent reverberation times
好的结果。从房间脉冲响应的逆滤波结果来看,三
RT 60 /ms 种方法逆滤波后的RIR均有比较明显的单一峰值。
算法类型
100∼500 600∼900 1000∼1500 图4给出了本文提出算法在不同混响时间下的
单通道偏度 2000 4000 6000
平均 DRR 及PESQ得分。在混响时间较短时,基于
多通道峰度 1000 2000 3000
峰度的方法与本文提出的基于偏度的方法结果相
MLPRS 1000 1500 2000
近;而当混响时间较长时,本文提出的基于偏度的方
MSJE 800 1000 1500
法要明显优于基于峰度的方法,且随着混响时间的
对比本文方法和已有的单通道偏度准则方法, 增加,这种优势会越明显。且本文提出的 MSJE 在
利用多通道数据可以有效减少滤波器阶数,而且算 不同混响时间下的DRR整体优于MLPRS。
法对滤波器阶数的选择不敏感;同时,采用偏度准 比较本文提出的两个算法与峰度算法的PESQ