Page 129 - 201805
P. 129

第 37 卷 第 5 期              李军锋等: 基于听觉感知特性的双耳音频处理技术                                           711


             除系统,串声消除问题有了雏形。20 世纪 90 年代,                       确,常用于离线计算串消滤波器系数。频率规整
             考虑听者头部等外在影响,Bauck等              [61]  将串声消除       化的串消形式也可以转换成时域求解                   [67] 。基于时
             推广到多扬声器多听者情形研究了一般化的串声                             域维纳滤波的固有因果稳定特性,Kim 等                   [68]  提出
             消除系统。大致来说,串声消除问题的研究可以分                            了时域的解卷积算法。利用 HRTF 的共极点建模,
             为两大类:(1) 从算法实现上,主要关注串声消除滤                         Wang 等  [69]  提出了基于 CAPZ 的共极点串声消除
             波器的具体数学求解,尽可能地降低数值误差,国内                           算法,寻求计算复杂度和串消性能的折中。Warp滤
             外研究者分别提出了时、频域不同串声消除滤波器                            波器由于其接近对数频率尺度更好地符合人耳的
             设计算法;(2) 从系统层面,分析串声消除系统对外                         听觉特性,Kirkeby 等      [70]  将传输矩阵函数 HRTF利
             在干扰如听者头动、外在误差等鲁棒性能,寻找较                            用 Warp FIR 建模,模拟人耳的非线性特性提高串
             优的扬声器与听者布置。                                       消滤波器的低频性能。同样基于 Warp 变换,Jeong
                                                               等 [71]  通过求解线性域的串消滤波器系数然后利用
             5.1 串声消除滤波器求解
                                                               Warp IIR 滤波器建模逼近,提升低频性能。基于
                 串声消除直接实现是对频域传输矩阵 (扬声器
                                                               Warp变换方法从线性域转换到非线性域,对HRTF
             到听者双耳之间传输函数组成的矩阵)直接求逆,但
                                                               的高频部分进行了平滑,使其更符合人耳听觉特性
             由于在某些频率点传输矩阵可能是奇异的,直接求
                                                               带来低频性能的提升,但增加了计算量一定程度上
             逆会出现所谓病态问题 (Ill-conditioned problem),
                                                               牺牲了高频性能。
             造成某些频率点对声源信号有较大的提升,引起
                                                                   传统的串声消除系统设计算法针对听者人
             频谱染色和扬声器重放时动态范围损失 (Dynamic
                                                               头某一固定位置而设计,而当听者微小移动 (如
             range loss)。Kirkeby 等  [62]  基于正则化原理提出了
                                                               75∼100 mm),期望的三维声像可能崩塌               [72] 。针对
             频率规整化算法。理想的频率规整化参数应该是频
                                                               听者头部微小移动,Ward 等            [73]  提出联合最小均
             域相关的,Liew 等      [63]  考虑频域人耳的听觉掩蔽效
                                                               方误差设计的概念,以人头为中心在一定区域内利
             应,引入与掩蔽阈值相关的规整化参数。针对频谱
                                                               用最小误差准则求解串声消除滤波器系数,寻求串
             染色主要由串消滤波器求逆某些频点峰值引起,但
                                                               声消除性能和头动鲁棒性之间的平衡。基于类似
             常数的规整化因子,将频谱单峰值变成双峰值,特
                                                               思想,Huang 等    [74]  考虑头部转动的多点位置的串
             别是在低频引入滚降 (Roll-off) 特性。Choueiri            [64]
                                                               消滤波器设计,Wang 等          [75]  在 Ward 基础上,针对
             具体深入分析引起频谱染色的原因,实际中对串
                                                               不同偏移位置设置不同的权重采用加权的多点串
             消滤波器峰值设定一给定的阈值,将串消滤波器
                                                               消滤波器设计。进一步地又提出在频域,根据多个
             划分为不同的频带规整化求解来减少扬声器串消
                                                               位置的频率规整化参数求解串消通道分离度,选取
             的频谱染色。频率规整化参数的引入不仅限制了
                                                               多点中最优的规整化参数             [76] 。Bai 等  [77]  在听者双
             串消滤波器的频域峰值也减少了串消滤波器的时
                                                               耳控制点附近增加额外的控制点,分别表示为明区
             域阶数   [65] ,但也造成串消滤波器出现非因果 “瑕
                                                               (Illuminated zone) 和暗区 (Shadow zone),来提高
             疵”(Artfacts)。Masiero 等  [66]  利用维纳 -霍夫分解
                                                               串消系统对听者偏移的鲁棒性。考虑到实际应用中
             (Wiener-Hopf decomposition) 将传输矩阵行列式
                                                               听者头部转动或者移动具有随机性,Xu 等                   [78]  引入
             分解为因果稳定部分 (Causal stable parts) 和非因
                                                               随机矩阵建模听者头部移动提出基于统计逼近的
             果稳定部分 (Anti-causal stable parts),其中非因果
                                                               鲁棒串声消除算法,分析表明其可提高对听者头部
             稳定的频域与传输矩阵之积的时域解利用窗函数
                                                               微小移动的鲁棒性。
             加窗截取其因果部分,求解串消矩阵的全局最小相
             位规整化解。                                            5.2  串声消除系统鲁棒性分析
                 串消矩阵的频域直接求解由于可以利用 FFT,                            实际应用中,各种误差的存在 (如不匹配的
             其实现相对高效易于实时应用,但也存在圆周卷                             HRIR 等) 对串消系统性能的影响可看成串消系
             积效应同时不能严格保证因果性需要增加额外的                             统鲁棒性问题,可用传输矩阵条件数 (Condition
             延时。而时域求解虽然计算复杂度较高但更加准                             number) 表征。而串消系统的最佳听音区域 (Sweet
   124   125   126   127   128   129   130   131   132   133   134