Page 129 - 201805
P. 129
第 37 卷 第 5 期 李军锋等: 基于听觉感知特性的双耳音频处理技术 711
除系统,串声消除问题有了雏形。20 世纪 90 年代, 确,常用于离线计算串消滤波器系数。频率规整
考虑听者头部等外在影响,Bauck等 [61] 将串声消除 化的串消形式也可以转换成时域求解 [67] 。基于时
推广到多扬声器多听者情形研究了一般化的串声 域维纳滤波的固有因果稳定特性,Kim 等 [68] 提出
消除系统。大致来说,串声消除问题的研究可以分 了时域的解卷积算法。利用 HRTF 的共极点建模,
为两大类:(1) 从算法实现上,主要关注串声消除滤 Wang 等 [69] 提出了基于 CAPZ 的共极点串声消除
波器的具体数学求解,尽可能地降低数值误差,国内 算法,寻求计算复杂度和串消性能的折中。Warp滤
外研究者分别提出了时、频域不同串声消除滤波器 波器由于其接近对数频率尺度更好地符合人耳的
设计算法;(2) 从系统层面,分析串声消除系统对外 听觉特性,Kirkeby 等 [70] 将传输矩阵函数 HRTF利
在干扰如听者头动、外在误差等鲁棒性能,寻找较 用 Warp FIR 建模,模拟人耳的非线性特性提高串
优的扬声器与听者布置。 消滤波器的低频性能。同样基于 Warp 变换,Jeong
等 [71] 通过求解线性域的串消滤波器系数然后利用
5.1 串声消除滤波器求解
Warp IIR 滤波器建模逼近,提升低频性能。基于
串声消除直接实现是对频域传输矩阵 (扬声器
Warp变换方法从线性域转换到非线性域,对HRTF
到听者双耳之间传输函数组成的矩阵)直接求逆,但
的高频部分进行了平滑,使其更符合人耳听觉特性
由于在某些频率点传输矩阵可能是奇异的,直接求
带来低频性能的提升,但增加了计算量一定程度上
逆会出现所谓病态问题 (Ill-conditioned problem),
牺牲了高频性能。
造成某些频率点对声源信号有较大的提升,引起
传统的串声消除系统设计算法针对听者人
频谱染色和扬声器重放时动态范围损失 (Dynamic
头某一固定位置而设计,而当听者微小移动 (如
range loss)。Kirkeby 等 [62] 基于正则化原理提出了
75∼100 mm),期望的三维声像可能崩塌 [72] 。针对
频率规整化算法。理想的频率规整化参数应该是频
听者头部微小移动,Ward 等 [73] 提出联合最小均
域相关的,Liew 等 [63] 考虑频域人耳的听觉掩蔽效
方误差设计的概念,以人头为中心在一定区域内利
应,引入与掩蔽阈值相关的规整化参数。针对频谱
用最小误差准则求解串声消除滤波器系数,寻求串
染色主要由串消滤波器求逆某些频点峰值引起,但
声消除性能和头动鲁棒性之间的平衡。基于类似
常数的规整化因子,将频谱单峰值变成双峰值,特
思想,Huang 等 [74] 考虑头部转动的多点位置的串
别是在低频引入滚降 (Roll-off) 特性。Choueiri [64]
消滤波器设计,Wang 等 [75] 在 Ward 基础上,针对
具体深入分析引起频谱染色的原因,实际中对串
不同偏移位置设置不同的权重采用加权的多点串
消滤波器峰值设定一给定的阈值,将串消滤波器
消滤波器设计。进一步地又提出在频域,根据多个
划分为不同的频带规整化求解来减少扬声器串消
位置的频率规整化参数求解串消通道分离度,选取
的频谱染色。频率规整化参数的引入不仅限制了
多点中最优的规整化参数 [76] 。Bai 等 [77] 在听者双
串消滤波器的频域峰值也减少了串消滤波器的时
耳控制点附近增加额外的控制点,分别表示为明区
域阶数 [65] ,但也造成串消滤波器出现非因果 “瑕
(Illuminated zone) 和暗区 (Shadow zone),来提高
疵”(Artfacts)。Masiero 等 [66] 利用维纳 -霍夫分解
串消系统对听者偏移的鲁棒性。考虑到实际应用中
(Wiener-Hopf decomposition) 将传输矩阵行列式
听者头部转动或者移动具有随机性,Xu 等 [78] 引入
分解为因果稳定部分 (Causal stable parts) 和非因
随机矩阵建模听者头部移动提出基于统计逼近的
果稳定部分 (Anti-causal stable parts),其中非因果
鲁棒串声消除算法,分析表明其可提高对听者头部
稳定的频域与传输矩阵之积的时域解利用窗函数
微小移动的鲁棒性。
加窗截取其因果部分,求解串消矩阵的全局最小相
位规整化解。 5.2 串声消除系统鲁棒性分析
串消矩阵的频域直接求解由于可以利用 FFT, 实际应用中,各种误差的存在 (如不匹配的
其实现相对高效易于实时应用,但也存在圆周卷 HRIR 等) 对串消系统性能的影响可看成串消系
积效应同时不能严格保证因果性需要增加额外的 统鲁棒性问题,可用传输矩阵条件数 (Condition
延时。而时域求解虽然计算复杂度较高但更加准 number) 表征。而串消系统的最佳听音区域 (Sweet