Page 77 - 《应用声学》2023年第2期
P. 77
第 42 卷 第 2 期 郑凯桐等: 房间脉冲响应模拟法及混响时间盲估计应用 265
多数之前的研究使用这一方法模拟混响语声用于 序列 (Maximum length sequence, MLS) [27] 法和指
评估估计模型的性能。然而,声音在真实场景中传 数正弦扫频(Exponential sine sweep, ESS) [28] 法测
播的过程往往不符合 LTI 系统假设 [1] 。因此,本文 量 RIR,从而计算房间真实的混响时间。MLS 信号
在 4 个具有不同尺寸、声学性质和混响时间的房间 长度为 10.92 s,采样频率为 48 kHz。ESS 信号的频
中进行了现场声学实验和录制,以验证各个模型在 率范围为 20 Hz∼20 kHz,持续时间为 20 s。通过比
真实环境下的实用性。4 个房间的尺寸和混响时间 较两种不同方法的结果验证了测量的可重复性。由
如表1所示。 于 ESS 方法对扬声器非线性失真具有鲁棒性,最终
采用 ESS 方法测得的 RIR 作为计算房间真实的混
表 1 真实房间尺寸和混响时间
响时间依据。所有信号均使用 48 kHz 采样率和 32
Table 1 Sizes and reverberation times of
位精度进行录制。
realistic rooms
3.1.3 测试集构建
房间名称 长/m 宽/m 高/m 体积/m 3 混响时间/s
将录制的混响语声切割为长度为 4 s 的混响语
房间 1 6.16 4.72 2.80 81.41 0.324
声片段,并对每段语声随机添加噪声。信噪比从
房间 2 12.42 6.93 2.67 229.81 0.822
0 dB、10 dB 和 20 dB 中随机选取,根据选取的信
房间 3 6.20 4.66 2.79 80.60 0.838
噪比将噪声按不同比例加入混响语声中。总共构建
房间 4 5.20 4.26 3.65 80.85 1.512 3000 句带噪混响语声作为测试集。房间混响时间
的真实值使用测量的RIR计算得出。为了验证使用
3.1.1 实验硬件
RIR 计算出的混响时间的可靠性,本实验还使用了
录声硬件包括笔记本电脑、声卡、恒流源、北
中断声源法测量混响时间,这两种测量方法的平均
京声传科技有限公司 CHZ-213+YG-201 型预极化
误差在0.02 s内。
1.27 cm 传声器、两套 GENELEC 8030B 有源监听
扬声器系统 (一套用于播放语声信号,一套用于播 3.2 混响时间盲估计实验结果
放噪声信号)、声频线和电源。
使用不同混响语声训练集训练的混响时间盲
3.1.2 录制流程 估计模型在不同信噪比的真实测试集下的性能如
在房间中固定噪声源和信号源的位置,选取 5 表 2 所示 (加粗表示每项中的最佳结果)。从表 2 中
个接收点作为传声器的位置并进行标记。对于每 可以得出,模型的估计性能随着信噪比的增加而提
个接收点,进行如下操作:将从 TIMIT [26] 数据库 升,表明噪声对估计性能有负面影响;使用 GAN 法
选取的长度为 5 min 的纯净语声作为语声信号;将 训练的估计网络在 RMSE 指标上对不同信噪比下
ACE challenge [8] 数据集中的 3 种噪声,以及选自 的场景均为性能最优,在皮尔森相关系数指标上在
NOISEX92 噪声数据集的粉色和白色噪声作为噪 0 dB 场景下最优;结果表明本方法模拟的RIR在训
声信号,每种噪声持续时间为1 min。使用最大长度 练估计模型时相较其他方法存在优势。
表 2 4 种方法训练的混响时间盲估计模型在不同信噪比下的估计性能
Table 2 Experimental results of four methods in real-world noisy reverberant scenarios
评价指标 RMSE/ms ρ
信噪比/dB 5 10 15 20 平均 0 5 10 15 20 平均
真实数据 291 287 267 272 258 275 0.826 0.870 0.889 0.89 0.897 0.874
Schroder 模型 225 215 224 224 222 222 0.888 0.946 0.938 0.950 0.948 0.934
虚源法 206 180 169 169 160 176 0.878 0.925 0.942 0.954 0.961 0.932
GAN 197 165 155 146 139 160 0.910 0.938 0.941 0.946 0.950 0.937