Page 75 - 《应用声学》2023年第2期
P. 75
第 42 卷 第 2 期 郑凯桐等: 房间脉冲响应模拟法及混响时间盲估计应用 263
x f ∼Q 更接近真实的数据分布 x r ∼P 。在判别器的损
失函数中,判别器的目标是最大化生成数据的分布 2 混响时间盲估计实验
和真实数据的分布之间的距离,使生成数据和真实 为了评估条件生成对抗网络的效果,本文使用
数据更容易被区分。在训练过程中,生成器和判别 不同的RIR 模拟方法模拟不同的 RIR 数据库,并且
器交替训练,最终达到动态平衡。 使用这些数据库构建不同的混响语声数据集分别
训练不同的混响时间盲估计模型。模型训练完成后,
1.4 训练数据与超参数 在真实房间测试不同模型的性能,从而间接地评判
本文使用公开的 ACE 数据库 [8] 对模型进行训 不同的RIR模拟方法。
练,ACE 数据库中包含 7 个房间中的不同位置的单 2.1 对比方法
通道和多通道 RIR 数据,总共可以拆分为 700 条单
本文的对比方法是Schroder模型和先前研究中
通道RIR数据。该数据集录制设备、录制方法、原始
常用的虚源法。分别模拟 5000 个混响时间范围为
数据信息记录良好且包含从 0.3∼1.35 s 不同混响时
0.3∼1.5 s的RIR,使RIR数据库的混响时间标签均
间的房间,适用于进行模型训练。本文使用非线性 衡。此外,本文还采用公开的2432个真实单通道RIR
拟合方法 [21] 计算 RIR 对应的混响时间,将混响时 对模型进行训练,其中包括 OpenAir 数据集 [22] 、
间标签和RIR数据输入模型进行训练。为了提升网 REVERB 数据集 [23] 和RWCP 数据集 [24] 。图 3 表
络的收敛性能,每个 RIR 数据在训练前进行幅度归 示不同 RIR 的时域对比图,通过对比虚源法模拟的
一化的预处理。 RIR,可以发现使用条件生成对抗网络模拟的 RIR
使 用 Adam 优 化 器 进 行 训 练, 其 学 习 率 为 在时域波形上与真实RIR更加接近。由于真实RIR
0.0001,并使用学习率衰减策略。总迭代次数为 数据集由于大部分房间的混响时间都在 0.8 s 以下,
10×10 次,批次大小为16。噪声向量的维度为100。 该真实RIR 数据集的混响时间标签不均衡。图4 和
4
为了便于训练,RIR的长度固定为 16384点,对过长 图5分别表示真实的 RIR数据库和使用条件生成对
和过短的RIR分别进行尾部裁剪和尾部补零处理。 抗网络模拟的RIR 数据库的混响时间分布。
1
ࣨए 0
-1
0 0.01 0.02 0.03 0.04 0.05
ᫎ/s
B ࠄै3*3
1.0
ࣨए 0.5
0
0 0.01 0.02 0.03 0.04 0.05
ᫎ/s
C ᘿູขၷੇᄊ3*3
1.0
ࣨए 0.5
0
0 0.01 0.02 0.03 0.04 0.05
ᫎ/s
D ͈ၷੇࠫઈᎪፏၷੇᄊ3*3
图 3 不同 RIR 的时域图
Fig. 3 Time-domain diagrams of different RIRs