Page 73 - 《应用声学》2023年第2期

P. 73

第 42 卷第 2 期郑凯桐等：房间脉冲响应模拟法及混响时间盲估计应用 261

针对估计方法在长混响情况下性能不佳的问
0 引言
题，许多计算机模拟 RIR 的方法被提出。传统的模
在房间中，接收点处会接收到从声源发出的直拟方法主要被分为 3 类。第一类是基于波动声学的
达声和经过房间表面多次反射的反射声。声源在方法，如有限元法 [11] 和边界元法 [12] 。这类方法可
停止发声后，声音在一段时间内仍可被人耳听见的以准确地模拟房间中的声波传输，但是对于高频
现象叫做混响 [1] 。声源在停止发声后声压级下降声波的计算复杂度比较高。第二类是基于射线声
学的方法，如虚源法 [13] 和路径追踪法 [14] 。这类方
60 dB 所需要的时间被定义为混响时间 (Reverber-
ation time, T 60 )。混响时间是表征房间声学特性的法因为计算复杂度较低而被广泛使用，但是该类方
重要参数，主要由房间的尺寸以及表面材料特性所法对于低频声波的仿真存在局限。第三类是基于
决定。混响时间对语声清晰度、空间感知等人耳主 RIR 统计模型的方法，如 Schroder 统计模型，但是
观听觉有重要影响 [2] 。混响时间可以使用房间脉冲该类方法模拟的 RIR 与真实的 RIR 在早期混响部
响应 (Room impulse response, RIR) 通过 Schroder 分存在显著差异。以上介绍的传统 RIR 模拟方法
反向积分法计算 [3] 。然而，测量 RIR 需要专业的仪均适用于特定的理论假设条件，其模拟的 RIR 与
器和测量人员并且需要花费较多时间，不便于大规实际的 RIR 存在一定差异，造成深度学习模型在实
模测量。因此，需要提出更加方便快捷的混响时间际场景下性能下降。因此，有学者提出基于生成对
盲估计方法。一种简捷方法是直接从混响语声信号抗网络 (Generative adversarial network, GAN) 的
中估计混响时间，省去耗时的声学测量和复杂的声 RIR模拟方法 [15] ，提升了深度学习模型在远场语声
学仪器。识别任务下的准确度。然而，该方法无法模拟具有
近年来，已有许多相关的混响时间盲估计方特定混响时间的 RIR 且远场语声识别任务下使用
法被提出 [4−7] 。这些方法可主要分为基于传统信的混响时间大多在 0.8 s 以下，缺乏长混响时间对应
号处理的方法和基于深度学习的方法。在 2015 年的RIR数据库。作者随后提出一种快速的RIR模拟
举办的环境声学特性(Acoustic Characterization of 方法 [16] ，极大提升了 RIR 的模拟速度。然而，该方
Environments, ACE) 挑战赛 [8] 中，各种混响时间法也是主要用于模拟中短混响 (0.2∼0.7 s) 的 RIR，
盲估计方法被评估，其中基于传统信号处理的混并且与真实房间的RIR仍存在差距。
响时间盲估计方法 [7] 取得了最佳性能。近年来随针对混响时间盲估计任务，本文提出了一种
着深度学习的发展，许多基于深度学习的混响时基于条件生成对抗网络的 RIR 模拟方法。在训练
间盲估计方法 [9−10] 被提出，并且在仿真数据集下阶段，真实房间的 RIR 和其对应的混响时间被用
取得超越传统信号处理方法的性能。然而，这些方于训练条件生成对抗网络。训练完成后，输入所
法主要存在以下两方面问题：首先，估计方法在长需的混响时间，该网络可以模拟对应混响时间的
混响情况下性能不佳。这是由于在构建混响语声 RIR。由于使用真实房间的 RIR 进行训练，模型模
训练集时，通常使用 RIR 和纯净语声卷积模拟混拟的 RIR 将与真实房间的 RIR 更加接近。为了验
响语声。大部分真实 RIR 的混响时间在 0.6∼0.8 s 证该方法的有效性，将该方法模拟的 RIR 和虚源
之间，会导致长混响时间 RIR 的缺失，造成不同混法、Schroder 统计模型模拟的RIR以及真实RIR分
响时间对应的 RIR 数量不均衡，进而影响长混响别构建训练数据集对相同混响时间估计网络框架
时间下的模型性能。其次，只使用人工合成的混进行训练。使用真实混响语声对使用不同 RIR 训
响语声对方法进行测试。在假设房间系统是线性练的混响估计网络进行测试，间接证明该方法的
时不变 (Linear time invariant, LTI)系统的前提下，有效性。
可以使用 RIR 和纯净语声卷积模拟混响语声。然针对先前研究只使用人工合成的混响语声对
而在真实情况下，房间系统并不严格满足 LTI 系统方法进行测试的问题，本文在 4 个真实房间中进行
假设 [1] 。之前的研究大多使用 RIR 和纯净语声卷了混响时间测量及实际环境的语声、噪声录声。4个
积模拟的混响语声而没有使用不同环境的真实语具有不同尺寸和不同混响时间的房间包括一间办
声对模型进行测试，没有验证模型在真实情况下公室、两间会议室以及一间隔声室。录声内容包括
的性能。混响语声和不同类型的噪声。本文使用这些真实数

68 69 70 71 72 73 74 75 76 77 78