Page 125 - 201805
P. 125

第 37 卷 第 5 期              李军锋等: 基于听觉感知特性的双耳音频处理技术                                           707


                                                               捡拾可获得包含空间声场信息的双耳声信号。早
             1 引言
                                                               期许多声学先驱(如Steinhauser Thompson和Lord
                                                               Rayleigh 等 [7] ) 即认为人类的双耳掌握着人耳听觉
                 声音是我们日常交流、传递信息和互相通信必
                                                               系统关于空间中声音的方向、距离等感知的主要信
             不可少的一部分。人类的听觉系统对声音的感知不
                                                               息。1881年,法国的发明家 Ader实现了第一个双耳
             仅包括响度、音调和音色等主观属性,还包含声音
                                                               声音传输系统的雏形          [8] 。利用两根电话线采集巴黎
             的空间属性等      [1] 。基于人耳听觉感知特性的双耳音
                                                               歌剧院现场声音传输给 2000 m 外的听者,Ader 发
             频处理技术利用信号处理、计算机等技术手段尽可
                                                               现利用两个接收端聆听即可带来很好的听觉体验。
             能地在听者双耳鼓膜处模拟出与真实声源场景相
                                                               尽管这项命名为Théatrophone技术,但由于其在当
             同的声压,使听者感知到空间中特定位置的虚拟声
                                                               时高额的花费,未能得到广泛应用。
             像  [2] 。双耳音频技术使得声音具有强烈的空间感、
                                                                   为了更好地重放真实声场,可以利用两个间距
             包围感和沉浸感,其在军事航空                [3] 、虚拟/增强现
                                                               18 cm (人头直径的平均尺寸) 的麦克风采集空间
             实  [4] 、通信多媒体娱乐      [5]  及科学研究   [6]  等领域都
                                                               中的两点声压。基于此想法,众多研究者进行了不
             有着重要应用。
                                                               同尝试,比较著名的有 Harvey 等            [9]  的双耳助听器
                 将 人 类 的 听 音 过 程 看 成 声 源 -媒 介 -接 收
                                                               (Binaural hearing aid) 和 Doolittle [10]  的双耳广播
             (Source-Medium-Receiver) 过程,自然环境下的听
                                                               系统 (Binaural broadcasting)。1927 年,Bartlett [11]
             音过程和双耳音频重放中的听音过程存在着很大
                                                               申请人工头 (Artificial head) 专利,开始研究麦克
             不同。自然场景下的声源信号不仅包含各个声源的
                                                               风置于耳廓部位的录音效果。1933 年,AT&T 实验
             方位信息,也包括周围的环境信息,因此双耳技术首
                                                               室制造的 “Oscar” 亮相芝加哥世博会,引起极大关
             先需要利用双耳录音或者合成虚拟出包含特定声
                                                               注 [12] 。随着人工头材料和模型的不断发展,不同类
             源空间信息的双耳信号。在利用耳机对双耳信号进
                                                               型的人工头相继不断出现            [13] ,其可更加准确地拾取
             行重放时,由于不满足自然传输条件,需要对耳机
                                                               空间声场信息。近几年也出现了相对便携的简化双
             传输函数 (Headphone transfer function, HpTF) 进
                                                               耳录音设备,如3Dio公司的自由空间双耳麦克风。
             行均衡,同时也会存在头内定位、方向混淆等问题。
             当利用扬声器对双耳信号进行重放时,由于扬声
                                                               3 双耳音频合成
             器到听者的双耳之间存在串声 (Crosstalk),实际音
             频重放系统中需要引入额外的串声消除 (Crosstalk                          双耳音频信号获取的最直接方式是利用人工
             cancellation) 对双耳信号进行预处理。为了更好地                    头录制包含相应声源空间方位及环境信息的双耳
             模拟真实自然听觉环境,当听者移动时还需要利用                            信号,但其具有费时、耗力等问题。实际应用较多的
             头跟踪技术实时更新相应的声学参数。                                 是基于头相关传输函数的双耳信号虚拟合成方法。
                 本文主要针对双耳音频处理系统所涉及的几                           虚拟的声学场景主要包含的信息有声源空间方位
             个关键技术:双耳录音、双耳音频合成、双耳音频耳                           (方向和距离)信息和周围房间环境信息。
             机重放、双耳音频扬声器重放、头跟踪等进行较为
                                                               3.1  方向信息模拟
             系统的介绍,并介绍双耳音频技术在不同领域的典
                                                                   自由场下,利用消声室录制的 “干”信号卷积相
             型应用,最后给出总结和展望。
                                                               应方向的左右耳的头相关冲激响应 (Head-related
                                                               impulse response, HRIR) 即可得到虚拟位置的双
             2 双耳录音
                                                               耳信号。然而实际中常见的音频信号大都是声源和
                 双耳录音 (Binaural recording),也称人工头录              环境信息混合在一起的多通道立体声信号。直接做
             音,是一种与普通立体声拾音不同的录音方式。利                            法是将不同通道信号与相应方向的左右耳HRIR 进
             用特定材料制作的人工头可模拟出头部、耳廓等生                            行卷积求和来虚拟某一方向声源场景                   [14] 。然而由
             理结构对空间声波的散射和反射过程,通过放置在                            于立体声信号通常包含多个声源信息,直接卷积求
             人工头耳道入口或者耳道内的传声器进行测量或                             和会产生不确定的虚拟方向,缺少深度感,同时声像
   120   121   122   123   124   125   126   127   128   129   130