Page 125 - 201805
P. 125
第 37 卷 第 5 期 李军锋等: 基于听觉感知特性的双耳音频处理技术 707
捡拾可获得包含空间声场信息的双耳声信号。早
1 引言
期许多声学先驱(如Steinhauser Thompson和Lord
Rayleigh 等 [7] ) 即认为人类的双耳掌握着人耳听觉
声音是我们日常交流、传递信息和互相通信必
系统关于空间中声音的方向、距离等感知的主要信
不可少的一部分。人类的听觉系统对声音的感知不
息。1881年,法国的发明家 Ader实现了第一个双耳
仅包括响度、音调和音色等主观属性,还包含声音
声音传输系统的雏形 [8] 。利用两根电话线采集巴黎
的空间属性等 [1] 。基于人耳听觉感知特性的双耳音
歌剧院现场声音传输给 2000 m 外的听者,Ader 发
频处理技术利用信号处理、计算机等技术手段尽可
现利用两个接收端聆听即可带来很好的听觉体验。
能地在听者双耳鼓膜处模拟出与真实声源场景相
尽管这项命名为Théatrophone技术,但由于其在当
同的声压,使听者感知到空间中特定位置的虚拟声
时高额的花费,未能得到广泛应用。
像 [2] 。双耳音频技术使得声音具有强烈的空间感、
为了更好地重放真实声场,可以利用两个间距
包围感和沉浸感,其在军事航空 [3] 、虚拟/增强现
18 cm (人头直径的平均尺寸) 的麦克风采集空间
实 [4] 、通信多媒体娱乐 [5] 及科学研究 [6] 等领域都
中的两点声压。基于此想法,众多研究者进行了不
有着重要应用。
同尝试,比较著名的有 Harvey 等 [9] 的双耳助听器
将 人 类 的 听 音 过 程 看 成 声 源 -媒 介 -接 收
(Binaural hearing aid) 和 Doolittle [10] 的双耳广播
(Source-Medium-Receiver) 过程,自然环境下的听
系统 (Binaural broadcasting)。1927 年,Bartlett [11]
音过程和双耳音频重放中的听音过程存在着很大
申请人工头 (Artificial head) 专利,开始研究麦克
不同。自然场景下的声源信号不仅包含各个声源的
风置于耳廓部位的录音效果。1933 年,AT&T 实验
方位信息,也包括周围的环境信息,因此双耳技术首
室制造的 “Oscar” 亮相芝加哥世博会,引起极大关
先需要利用双耳录音或者合成虚拟出包含特定声
注 [12] 。随着人工头材料和模型的不断发展,不同类
源空间信息的双耳信号。在利用耳机对双耳信号进
型的人工头相继不断出现 [13] ,其可更加准确地拾取
行重放时,由于不满足自然传输条件,需要对耳机
空间声场信息。近几年也出现了相对便携的简化双
传输函数 (Headphone transfer function, HpTF) 进
耳录音设备,如3Dio公司的自由空间双耳麦克风。
行均衡,同时也会存在头内定位、方向混淆等问题。
当利用扬声器对双耳信号进行重放时,由于扬声
3 双耳音频合成
器到听者的双耳之间存在串声 (Crosstalk),实际音
频重放系统中需要引入额外的串声消除 (Crosstalk 双耳音频信号获取的最直接方式是利用人工
cancellation) 对双耳信号进行预处理。为了更好地 头录制包含相应声源空间方位及环境信息的双耳
模拟真实自然听觉环境,当听者移动时还需要利用 信号,但其具有费时、耗力等问题。实际应用较多的
头跟踪技术实时更新相应的声学参数。 是基于头相关传输函数的双耳信号虚拟合成方法。
本文主要针对双耳音频处理系统所涉及的几 虚拟的声学场景主要包含的信息有声源空间方位
个关键技术:双耳录音、双耳音频合成、双耳音频耳 (方向和距离)信息和周围房间环境信息。
机重放、双耳音频扬声器重放、头跟踪等进行较为
3.1 方向信息模拟
系统的介绍,并介绍双耳音频技术在不同领域的典
自由场下,利用消声室录制的 “干”信号卷积相
型应用,最后给出总结和展望。
应方向的左右耳的头相关冲激响应 (Head-related
impulse response, HRIR) 即可得到虚拟位置的双
2 双耳录音
耳信号。然而实际中常见的音频信号大都是声源和
双耳录音 (Binaural recording),也称人工头录 环境信息混合在一起的多通道立体声信号。直接做
音,是一种与普通立体声拾音不同的录音方式。利 法是将不同通道信号与相应方向的左右耳HRIR 进
用特定材料制作的人工头可模拟出头部、耳廓等生 行卷积求和来虚拟某一方向声源场景 [14] 。然而由
理结构对空间声波的散射和反射过程,通过放置在 于立体声信号通常包含多个声源信息,直接卷积求
人工头耳道入口或者耳道内的传声器进行测量或 和会产生不确定的虚拟方向,缺少深度感,同时声像