Page 73 - 《应用声学》2023年第2期
P. 73
第 42 卷 第 2 期 郑凯桐等: 房间脉冲响应模拟法及混响时间盲估计应用 261
针对估计方法在长混响情况下性能不佳的问
0 引言
题,许多计算机模拟 RIR 的方法被提出。传统的模
在房间中,接收点处会接收到从声源发出的直 拟方法主要被分为 3 类。第一类是基于波动声学的
达声和经过房间表面多次反射的反射声。声源在 方法,如有限元法 [11] 和边界元法 [12] 。这类方法可
停止发声后,声音在一段时间内仍可被人耳听见的 以准确地模拟房间中的声波传输,但是对于高频
现象叫做混响 [1] 。声源在停止发声后声压级下降 声波的计算复杂度比较高。第二类是基于射线声
学的方法,如虚源法 [13] 和路径追踪法 [14] 。这类方
60 dB 所需要的时间被定义为混响时间 (Reverber-
ation time, T 60 )。混响时间是表征房间声学特性的 法因为计算复杂度较低而被广泛使用,但是该类方
重要参数,主要由房间的尺寸以及表面材料特性所 法对于低频声波的仿真存在局限。第三类是基于
决定。混响时间对语声清晰度、空间感知等人耳主 RIR 统计模型的方法,如 Schroder 统计模型,但是
观听觉有重要影响 [2] 。混响时间可以使用房间脉冲 该类方法模拟的 RIR 与真实的 RIR 在早期混响部
响应 (Room impulse response, RIR) 通过 Schroder 分存在显著差异。以上介绍的传统 RIR 模拟方法
反向积分法计算 [3] 。然而,测量 RIR 需要专业的仪 均适用于特定的理论假设条件,其模拟的 RIR 与
器和测量人员并且需要花费较多时间,不便于大规 实际的 RIR 存在一定差异,造成深度学习模型在实
模测量。因此,需要提出更加方便快捷的混响时间 际场景下性能下降。因此,有学者提出基于生成对
盲估计方法。一种简捷方法是直接从混响语声信号 抗网络 (Generative adversarial network, GAN) 的
中估计混响时间,省去耗时的声学测量和复杂的声 RIR模拟方法 [15] ,提升了深度学习模型在远场语声
学仪器。 识别任务下的准确度。然而,该方法无法模拟具有
近年来,已有许多相关的混响时间盲估计方 特定混响时间的 RIR 且远场语声识别任务下使用
法被提出 [4−7] 。这些方法可主要分为基于传统信 的混响时间大多在 0.8 s 以下,缺乏长混响时间对应
号处理的方法和基于深度学习的方法。在 2015 年 的RIR数据库。作者随后提出一种快速的RIR模拟
举办的环境声学特性(Acoustic Characterization of 方法 [16] ,极大提升了 RIR 的模拟速度。然而,该方
Environments, ACE) 挑战赛 [8] 中,各种混响时间 法也是主要用于模拟中短混响 (0.2∼0.7 s) 的 RIR,
盲估计方法被评估,其中基于传统信号处理的混 并且与真实房间的RIR仍存在差距。
响时间盲估计方法 [7] 取得了最佳性能。近年来随 针对混响时间盲估计任务,本文提出了一种
着深度学习的发展,许多基于深度学习的混响时 基于条件生成对抗网络的 RIR 模拟方法。在训练
间盲估计方法 [9−10] 被提出,并且在仿真数据集下 阶段,真实房间的 RIR 和其对应的混响时间被用
取得超越传统信号处理方法的性能。然而,这些方 于训练条件生成对抗网络。训练完成后,输入所
法主要存在以下两方面问题:首先,估计方法在长 需的混响时间,该网络可以模拟对应混响时间的
混响情况下性能不佳。这是由于在构建混响语声 RIR。由于使用真实房间的 RIR 进行训练,模型模
训练集时,通常使用 RIR 和纯净语声卷积模拟混 拟的 RIR 将与真实房间的 RIR 更加接近。为了验
响语声。大部分真实 RIR 的混响时间在 0.6∼0.8 s 证该方法的有效性,将该方法模拟的 RIR 和虚源
之间,会导致长混响时间 RIR 的缺失,造成不同混 法、Schroder 统计模型模拟的RIR以及真实RIR分
响时间对应的 RIR 数量不均衡,进而影响长混响 别构建训练数据集对相同混响时间估计网络框架
时间下的模型性能。其次,只使用人工合成的混 进行训练。使用真实混响语声对使用不同 RIR 训
响语声对方法进行测试。在假设房间系统是线性 练的混响估计网络进行测试,间接证明该方法的
时不变 (Linear time invariant, LTI)系统的前提下, 有效性。
可以使用 RIR 和纯净语声卷积模拟混响语声。然 针对先前研究只使用人工合成的混响语声对
而在真实情况下,房间系统并不严格满足 LTI 系统 方法进行测试的问题,本文在 4 个真实房间中进行
假设 [1] 。之前的研究大多使用 RIR 和纯净语声卷 了混响时间测量及实际环境的语声、噪声录声。4个
积模拟的混响语声而没有使用不同环境的真实语 具有不同尺寸和不同混响时间的房间包括一间办
声对模型进行测试,没有验证模型在真实情况下 公室、两间会议室以及一间隔声室。录声内容包括
的性能。 混响语声和不同类型的噪声。本文使用这些真实数