Page 63 - 201901
P. 63

第 38 卷 第 1 期               郭颖等: 偏度最大化多通道逆滤波语声去混响研究                                           59


                                                               验说明该方法在 0.2∼0.4 s 的混响时间范围内有效,
             0 引言
                                                               而在混响较强的环境下该方法失效。应用峰度准
                 在一个封闭空间中,传声器拾取的语声信号既                          则的方法去混响性能有限,文献 [13] 采用三阶统计
             包括直达声,也包括通过墙壁和天花板等反射的混                            量偏度 (Skewness) 对具有不对称概率密度分布的
             响声。房间混响会引起谱染色,影响语声质量,降低                           信号进行盲反卷积,文献 [14] 提出最大化线性预测
             语声可懂度,进而严重降低语声识别、语声分离等应                           残差偏度的单通道逆滤波方法,通过实验说明了足
             用的性能。随着说话人与传声器距离的增加以及房                            够长的纯净语声信号概率密度分布呈现出明显的
             间混响时间的增加,混响所带来的影响也会越严重。                           不对称特性,该方法相比于峰度准则在较强混响下
                 去混响方法通常可以分为以下几类:(1) 波束                        性能更优,而且鲁棒性更强。直接对混响语声信号
             形成  [1] ,该方法是一种空间滤波技术,广泛应用于                       进行线性预测得到的线性预测系数存在一定的偏
             雷达、声呐、远程通讯、声学、图像处理等多种领                            差,影响房间脉冲响应逆滤波的准确度,文献 [15]
             域  [2] 。在声学信号处理中,用于噪声环境下的声源                       从语声信号的产生模型出发,将混响语声信号的
             提取以及混响抑制。该方法往往需要信号的波达方                            盲逆滤波分解为预测误差滤波器 (Prediction error
             向 (Directions of arrival, DOAs) 作为先验信息,而          filter, PEF) 的估计和房间脉冲响应逆滤波器的估
             且为了达到比较理想的去混响效果,需要相对较                             计两部分。
             多的传声器个数以及较大的传声器阵列孔径,从而                                本文提出一种基于高阶统计量的多通道语声
             使直达方向的增益足够大。(2) 谱增强               [3−4] ,Lebart   去混响方法,该方法首次用多通道语声信号线性预
             等  [5]  提出利用谱减法实现无噪声情况下的语声去                       测残差的偏度构造代价函数,以语声去混响重建信
             混响。通常用于晚期混响抑制,该类方法需要根                             号线性预测残差的偏度最大化为目标,自适应地更
             据房间的混响时间来估计混响的能量。Fang 等                     [6]   新通道逆滤波器。同时为了得到更准确的通道逆滤

             用基于相干函数的方法实现去混响。(3) 线性预测                          波器估计,提出联合估计通道逆滤波器和语声产生
             (Linear prediction, LP) 残差增强,Peng 等    [7]  的工    系统逆滤波器的新方法。该方法相比于已有的线性
             作说明了晚期混响在 LP 残差域相对较白。文献 [8]                       预测残差域峰度最大化的多通道去混响方法,计算
             采用约束最小均方误差 LP 残差估计方法去除晚期                          量更低,而且具有更好的去混响效果,特别是在混响
             混响和噪声,相比于传统的 LP 残差域处理方法和                          时间较长的环境下性能更为突出,同时对噪声的鲁
             谱减法性能有很大的提升。文献 [9] 利用多级线性                         棒性更强。
             预测实现晚期混响抑制。(4) 逆滤波,该类方法直接
                                                               1 偏度最大化多通道房间脉冲响应逆滤波
             估计引起房间混响的房间脉冲响应 (Room impulse
             response, RIR),通过对观测信号进行解卷积得到
                                                               1.1  算法理论模型
             原始信号。在实际应用场景中,房间脉冲响应通常
                                                                   混响语声模型可以表示为
             是未知的,而且会随着声源移动或房间状态 (如温
                                                                                   L
             度和湿度等)的改变而变化。因此,本文研究盲反卷                                      x m (n) =  ∑  h m (l)s(n − l),  (1)
             积的方法。基于随机变量非高斯性极大的准则,混                                               l=0
             响信号可以假设为独立同分布 (i.i.d) 的语声信号进                      其中,传声器个数为 M(M > 2),x m (n) 为第 m 个
             行延迟、加权的结果,依据中心极限定理                 [10] ,混响信      传声器拾取的混响语声信号,s(n) 为目标语声信号,
             号可以近似为高斯分布。高阶统计量是衡量非高斯                            {h m (l)} L  表示声源到第 m 个传声器的 L + 1 阶时
                                                                      l=0
             性的重要参量,语声信号是典型的非高斯信号,因此                           不变的房间脉冲响应。
             采用高阶统计量可实现语声分离和去混响。                                   语声信号从产生、经过房间反射到被传声器拾
                 文献[11]提出一种最大化线性预测残差四阶统                        取所经过的声学系统可认为是语声产生系统和房
             计量峰度 (Kurtosis) 的去混响方法,证明了该方法                     间声学系统的串联系统。其中语声信号的产生过程
             比传统的波束形成方法具有更有效的去混响效果。                            可建模成一个时变的自回归 (Autoregressive, AR)
             文献 [12] 在此基础上提出单通道频域实现,通过实                        过程   [16] ,考虑语声信号的短时平稳特性,第 i 帧的
   58   59   60   61   62   63   64   65   66   67   68