Page 126 - 201805
P. 126

708                                                                                  2018 年 9 月


             较窄  [15−16] 。常用的解决方法是利用声音场景分解                     都是空间中不同水平角和仰角离散分布,为完整
             (Sound scene decomposition),从多通道信号中分              虚拟空间中各个位置的声像实际中需要对HRIR 数
             离出各自的主声音信号 (Primary sound) 和背景声                   据进行插值      [26] 。主要分为局部插值算法,即 HRIR
             音信号(Ambient sound),再利用不同方位的 HRIR                  根据周围相邻方向测量插值计算得到如双线性插
             卷积各自的主声音信号,与背景信号相加合成双耳                            值 [27] 、比值插值    [28]  等;全局插值算法,即 HRIR
             信号  [17] 。                                        根据所有测量方向数据利用合适基函数展开对系
                 双耳音频合成需要用到听者 HRIR 数据,而                        数插值如基于球谐级数 (Spherical harmonics) 的插
             HRIR 和听者头部生理结构、尺寸密切相关,是具有                         值 [29] 、PCA 插值  [30]  等。此外,HRIR 数据通常阶
             明显个性化特征的物理量。理想情况下,虚拟声源                            数较长,实际中为降低双耳信号与 HRIR 卷积运算
             方向所用 HRIR 应与实际听者相匹配。常用的方法                         量,特别是针对合成多声源情形,相应地也需要对
             有两种:直接测量        [18−19]  或者根据听者头部模型理              HRIR进行低阶建模。Li等          [31]  将HRIR分解成最小
             论计算。直接测量方法利用特定设备对听者进行空                            相位部分和纯延时,对最小相位部分进行FIR建模,
             间中不同角度测量,其通常耗时费力。相应地也有                            可将几百阶 HRIR 降低到几十阶,声学上可重现同
             研究根据互易原理         [20]  或者其他快速测量算法         [21] ,  样的效果,大大降低计算量,利于系统实时应用。
             但现阶段对每个听者进行测量还不现实。理论计算
                                                               3.2  距离信息模拟
             通常利用光学设备如激光、CT 或核磁共振成像的
                                                                   虚拟出接近真实环境的声像距离信息是双耳
             方法获得真人或人工头生理外形的计算机图形,然
                                                               音频合成中的另一重要组成部分,然而实际中存在
             后利用边界元 (Boundary element method, BEM)、
                                                               很大困难。首先,人耳在实际环境中对声源距离的
             有限元 (Finite element method, FEM)等计算听者
                                                               感知相对方向感知更加的不灵敏                 [32] ,声源距离感
             HRIR 数据。数值计算方法的一个很大挑战是需要
                                                               知也与听者认知水平 (如声源熟悉度) 相关,且对于
             较为复杂的计算模型,特别是求解 HRIR 的高频信
                                                               近距离声源感知较远,远距离声源感知较近                    [33] 。此
             息,计算量较大,主要用于实验研究。
                                                               外由于耳机重放时缺乏个性化信息、均衡等会引
                 针对 HRIR 严格理论计算或测量较为复杂、不
                                                               起头内定位现象。实际中利用个性化 HRIR、HpTF
             现实问题,实际中可利用个性化 HRIR 算法一定程
                                                               均衡、加入混响等能一定程度上提高声像头部外
             度改善重放声像的性能,相应地主要有基于生理参
                                                               化效果,但仍旧不能确保准确的距离感知                     [17] 。直
             数匹配和测听实验反馈调节两大类。HRIR 在频域
                                                               达声混响比 (Direct-to-reverberation energy ratio,
             或者空间域,可以表示一系列基函数的权重之和。
                                                               DRR) 是一个决定距离感知定位的关键因素,但其
             因此个性化 HRIR 信息通常包含在基函数的权重
                                                               与房间特性密切相关,实际中需要精细的反复调整。
             中,其可基于生理参数利用近似线性回归拟合                      [22] 。
                                                                   值得说明的是,双耳音频信号中方位信息完
             实际中可利用测量获得听者相应生理参数,进而拟
                                                               整还包括仰角 (即高度) 方向,而现有方位信息模
             合出具有个性化特征的权重获得相应HRIR。此外,
                                                               拟主要关注的是水平面,也有文献利用双耳房间
             根据实际听者测量的某些生理参数与实际数据库
                                                               脉冲响应(Binaural room impulse response, BRIR)
             中不同测量听者生理参数进行误差对比,也可选择
                                                               中的早期反射来合成高度信息               [34] 。
             数据库中误差较小的HRIR数据              [23] 。听者选择个性
             化 HRIR 的基本思路是从公共数据库中选择 HRIR                       3.3  声场信息模拟
             合成双耳信号,听者利用一系列测听实验,根据重放                               为真实重现空间中三维声像,虚拟双耳信号中
             声像的定位性能,选择合适的 HRIR 直至获得满意                         的声场环境信息是必不可少的,特别是对于室内声
             的效果。类似地也可调节 HRIR 中基函数分解 (如                        场的模拟。此外,双耳信号中包含环境信息还可一
             PCA分解)的权重系数来获得满意效果                 [24] 。随着获      定程度上减少或消除耳机重放中的头内定位问题
             取 HRIR 数据相对容易以及数据的增多,近年来也                         和实现重放声像的距离控制。环境信息虚拟最直接
             有基于机器学习算法的HRIR个性化研究                  [25] 。       的方法是利用双耳房间脉冲响应 BRIR 代替 HRIR
                 不管是实际测量或者个性化 HRIR 数据,通常                       与声源信号进行卷积          [32] 。同样,实际中 BRIR 也需
   121   122   123   124   125   126   127   128   129   130   131