Page 73 - 《应用声学》2023年第2期
P. 73

第 42 卷 第 2 期             郑凯桐等: 房间脉冲响应模拟法及混响时间盲估计应用                                          261


                                                                   针对估计方法在长混响情况下性能不佳的问
             0 引言
                                                               题,许多计算机模拟 RIR 的方法被提出。传统的模
                 在房间中,接收点处会接收到从声源发出的直                          拟方法主要被分为 3 类。第一类是基于波动声学的
             达声和经过房间表面多次反射的反射声。声源在                             方法,如有限元法         [11]  和边界元法   [12] 。这类方法可
             停止发声后,声音在一段时间内仍可被人耳听见的                            以准确地模拟房间中的声波传输,但是对于高频
             现象叫做混响       [1] 。声源在停止发声后声压级下降                   声波的计算复杂度比较高。第二类是基于射线声
                                                               学的方法,如虚源法          [13]  和路径追踪法    [14] 。这类方
             60 dB 所需要的时间被定义为混响时间 (Reverber-
             ation time, T 60 )。混响时间是表征房间声学特性的                 法因为计算复杂度较低而被广泛使用,但是该类方
             重要参数,主要由房间的尺寸以及表面材料特性所                            法对于低频声波的仿真存在局限。第三类是基于
             决定。混响时间对语声清晰度、空间感知等人耳主                            RIR 统计模型的方法,如 Schroder 统计模型,但是
             观听觉有重要影响         [2] 。混响时间可以使用房间脉冲                该类方法模拟的 RIR 与真实的 RIR 在早期混响部
             响应 (Room impulse response, RIR) 通过 Schroder       分存在显著差异。以上介绍的传统 RIR 模拟方法
             反向积分法计算        [3] 。然而,测量 RIR 需要专业的仪              均适用于特定的理论假设条件,其模拟的 RIR 与
             器和测量人员并且需要花费较多时间,不便于大规                            实际的 RIR 存在一定差异,造成深度学习模型在实
             模测量。因此,需要提出更加方便快捷的混响时间                            际场景下性能下降。因此,有学者提出基于生成对
             盲估计方法。一种简捷方法是直接从混响语声信号                            抗网络 (Generative adversarial network, GAN) 的
             中估计混响时间,省去耗时的声学测量和复杂的声                            RIR模拟方法      [15] ,提升了深度学习模型在远场语声
             学仪器。                                              识别任务下的准确度。然而,该方法无法模拟具有
                 近年来,已有许多相关的混响时间盲估计方                           特定混响时间的 RIR 且远场语声识别任务下使用
             法被提出     [4−7] 。这些方法可主要分为基于传统信                    的混响时间大多在 0.8 s 以下,缺乏长混响时间对应
             号处理的方法和基于深度学习的方法。在 2015 年                         的RIR数据库。作者随后提出一种快速的RIR模拟
             举办的环境声学特性(Acoustic Characterization of            方法   [16] ,极大提升了 RIR 的模拟速度。然而,该方
             Environments, ACE) 挑战赛    [8]  中,各种混响时间           法也是主要用于模拟中短混响 (0.2∼0.7 s) 的 RIR,
             盲估计方法被评估,其中基于传统信号处理的混                             并且与真实房间的RIR仍存在差距。
             响时间盲估计方法         [7]  取得了最佳性能。近年来随                    针对混响时间盲估计任务,本文提出了一种
             着深度学习的发展,许多基于深度学习的混响时                             基于条件生成对抗网络的 RIR 模拟方法。在训练
             间盲估计方法       [9−10]  被提出,并且在仿真数据集下                阶段,真实房间的 RIR 和其对应的混响时间被用
             取得超越传统信号处理方法的性能。然而,这些方                            于训练条件生成对抗网络。训练完成后,输入所
             法主要存在以下两方面问题:首先,估计方法在长                            需的混响时间,该网络可以模拟对应混响时间的
             混响情况下性能不佳。这是由于在构建混响语声                             RIR。由于使用真实房间的 RIR 进行训练,模型模
             训练集时,通常使用 RIR 和纯净语声卷积模拟混                          拟的 RIR 将与真实房间的 RIR 更加接近。为了验
             响语声。大部分真实 RIR 的混响时间在 0.6∼0.8 s                    证该方法的有效性,将该方法模拟的 RIR 和虚源
             之间,会导致长混响时间 RIR 的缺失,造成不同混                         法、Schroder 统计模型模拟的RIR以及真实RIR分
             响时间对应的 RIR 数量不均衡,进而影响长混响                          别构建训练数据集对相同混响时间估计网络框架
             时间下的模型性能。其次,只使用人工合成的混                             进行训练。使用真实混响语声对使用不同 RIR 训
             响语声对方法进行测试。在假设房间系统是线性                             练的混响估计网络进行测试,间接证明该方法的
             时不变 (Linear time invariant, LTI)系统的前提下,           有效性。
             可以使用 RIR 和纯净语声卷积模拟混响语声。然                              针对先前研究只使用人工合成的混响语声对
             而在真实情况下,房间系统并不严格满足 LTI 系统                         方法进行测试的问题,本文在 4 个真实房间中进行
             假设  [1] 。之前的研究大多使用 RIR 和纯净语声卷                     了混响时间测量及实际环境的语声、噪声录声。4个
             积模拟的混响语声而没有使用不同环境的真实语                             具有不同尺寸和不同混响时间的房间包括一间办
             声对模型进行测试,没有验证模型在真实情况下                             公室、两间会议室以及一间隔声室。录声内容包括
             的性能。                                              混响语声和不同类型的噪声。本文使用这些真实数
   68   69   70   71   72   73   74   75   76   77   78