Page 63 - 201901
P. 63
第 38 卷 第 1 期 郭颖等: 偏度最大化多通道逆滤波语声去混响研究 59
验说明该方法在 0.2∼0.4 s 的混响时间范围内有效,
0 引言
而在混响较强的环境下该方法失效。应用峰度准
在一个封闭空间中,传声器拾取的语声信号既 则的方法去混响性能有限,文献 [13] 采用三阶统计
包括直达声,也包括通过墙壁和天花板等反射的混 量偏度 (Skewness) 对具有不对称概率密度分布的
响声。房间混响会引起谱染色,影响语声质量,降低 信号进行盲反卷积,文献 [14] 提出最大化线性预测
语声可懂度,进而严重降低语声识别、语声分离等应 残差偏度的单通道逆滤波方法,通过实验说明了足
用的性能。随着说话人与传声器距离的增加以及房 够长的纯净语声信号概率密度分布呈现出明显的
间混响时间的增加,混响所带来的影响也会越严重。 不对称特性,该方法相比于峰度准则在较强混响下
去混响方法通常可以分为以下几类:(1) 波束 性能更优,而且鲁棒性更强。直接对混响语声信号
形成 [1] ,该方法是一种空间滤波技术,广泛应用于 进行线性预测得到的线性预测系数存在一定的偏
雷达、声呐、远程通讯、声学、图像处理等多种领 差,影响房间脉冲响应逆滤波的准确度,文献 [15]
域 [2] 。在声学信号处理中,用于噪声环境下的声源 从语声信号的产生模型出发,将混响语声信号的
提取以及混响抑制。该方法往往需要信号的波达方 盲逆滤波分解为预测误差滤波器 (Prediction error
向 (Directions of arrival, DOAs) 作为先验信息,而 filter, PEF) 的估计和房间脉冲响应逆滤波器的估
且为了达到比较理想的去混响效果,需要相对较 计两部分。
多的传声器个数以及较大的传声器阵列孔径,从而 本文提出一种基于高阶统计量的多通道语声
使直达方向的增益足够大。(2) 谱增强 [3−4] ,Lebart 去混响方法,该方法首次用多通道语声信号线性预
等 [5] 提出利用谱减法实现无噪声情况下的语声去 测残差的偏度构造代价函数,以语声去混响重建信
混响。通常用于晚期混响抑制,该类方法需要根 号线性预测残差的偏度最大化为目标,自适应地更
据房间的混响时间来估计混响的能量。Fang 等 [6] 新通道逆滤波器。同时为了得到更准确的通道逆滤
用基于相干函数的方法实现去混响。(3) 线性预测 波器估计,提出联合估计通道逆滤波器和语声产生
(Linear prediction, LP) 残差增强,Peng 等 [7] 的工 系统逆滤波器的新方法。该方法相比于已有的线性
作说明了晚期混响在 LP 残差域相对较白。文献 [8] 预测残差域峰度最大化的多通道去混响方法,计算
采用约束最小均方误差 LP 残差估计方法去除晚期 量更低,而且具有更好的去混响效果,特别是在混响
混响和噪声,相比于传统的 LP 残差域处理方法和 时间较长的环境下性能更为突出,同时对噪声的鲁
谱减法性能有很大的提升。文献 [9] 利用多级线性 棒性更强。
预测实现晚期混响抑制。(4) 逆滤波,该类方法直接
1 偏度最大化多通道房间脉冲响应逆滤波
估计引起房间混响的房间脉冲响应 (Room impulse
response, RIR),通过对观测信号进行解卷积得到
1.1 算法理论模型
原始信号。在实际应用场景中,房间脉冲响应通常
混响语声模型可以表示为
是未知的,而且会随着声源移动或房间状态 (如温
L
度和湿度等)的改变而变化。因此,本文研究盲反卷 x m (n) = ∑ h m (l)s(n − l), (1)
积的方法。基于随机变量非高斯性极大的准则,混 l=0
响信号可以假设为独立同分布 (i.i.d) 的语声信号进 其中,传声器个数为 M(M > 2),x m (n) 为第 m 个
行延迟、加权的结果,依据中心极限定理 [10] ,混响信 传声器拾取的混响语声信号,s(n) 为目标语声信号,
号可以近似为高斯分布。高阶统计量是衡量非高斯 {h m (l)} L 表示声源到第 m 个传声器的 L + 1 阶时
l=0
性的重要参量,语声信号是典型的非高斯信号,因此 不变的房间脉冲响应。
采用高阶统计量可实现语声分离和去混响。 语声信号从产生、经过房间反射到被传声器拾
文献[11]提出一种最大化线性预测残差四阶统 取所经过的声学系统可认为是语声产生系统和房
计量峰度 (Kurtosis) 的去混响方法,证明了该方法 间声学系统的串联系统。其中语声信号的产生过程
比传统的波束形成方法具有更有效的去混响效果。 可建模成一个时变的自回归 (Autoregressive, AR)
文献 [12] 在此基础上提出单通道频域实现,通过实 过程 [16] ,考虑语声信号的短时平稳特性,第 i 帧的