Page 75 - 《应用声学》2023年第2期
P. 75

第 42 卷 第 2 期             郑凯桐等: 房间脉冲响应模拟法及混响时间盲估计应用                                          263


             x f ∼Q 更接近真实的数据分布 x r ∼P 。在判别器的损
             失函数中,判别器的目标是最大化生成数据的分布                            2 混响时间盲估计实验
             和真实数据的分布之间的距离,使生成数据和真实                                为了评估条件生成对抗网络的效果,本文使用
             数据更容易被区分。在训练过程中,生成器和判别                            不同的RIR 模拟方法模拟不同的 RIR 数据库,并且
             器交替训练,最终达到动态平衡。                                   使用这些数据库构建不同的混响语声数据集分别
                                                               训练不同的混响时间盲估计模型。模型训练完成后,
             1.4 训练数据与超参数                                      在真实房间测试不同模型的性能,从而间接地评判
                 本文使用公开的 ACE 数据库            [8]  对模型进行训        不同的RIR模拟方法。
             练,ACE 数据库中包含 7 个房间中的不同位置的单                        2.1  对比方法
             通道和多通道 RIR 数据,总共可以拆分为 700 条单
                                                                   本文的对比方法是Schroder模型和先前研究中
             通道RIR数据。该数据集录制设备、录制方法、原始
                                                               常用的虚源法。分别模拟 5000 个混响时间范围为
             数据信息记录良好且包含从 0.3∼1.35 s 不同混响时
                                                               0.3∼1.5 s的RIR,使RIR数据库的混响时间标签均
             间的房间,适用于进行模型训练。本文使用非线性                            衡。此外,本文还采用公开的2432个真实单通道RIR
             拟合方法    [21]  计算 RIR 对应的混响时间,将混响时                 对模型进行训练,其中包括 OpenAir 数据集                  [22] 、
             间标签和RIR数据输入模型进行训练。为了提升网                           REVERB 数据集      [23]  和RWCP 数据集     [24] 。图 3 表
             络的收敛性能,每个 RIR 数据在训练前进行幅度归                         示不同 RIR 的时域对比图,通过对比虚源法模拟的
             一化的预处理。                                           RIR,可以发现使用条件生成对抗网络模拟的 RIR

                 使 用 Adam 优 化 器 进 行 训 练, 其 学 习 率 为             在时域波形上与真实RIR更加接近。由于真实RIR
             0.0001,并使用学习率衰减策略。总迭代次数为                          数据集由于大部分房间的混响时间都在 0.8 s 以下,
             10×10 次,批次大小为16。噪声向量的维度为100。                      该真实RIR 数据集的混响时间标签不均衡。图4 和
                   4
             为了便于训练,RIR的长度固定为 16384点,对过长                       图5分别表示真实的 RIR数据库和使用条件生成对
             和过短的RIR分别进行尾部裁剪和尾部补零处理。                           抗网络模拟的RIR 数据库的混响时间分布。
                                1

                              ࣨए  0

                               -1
                                 0          0.01       0.02        0.03       0.04        0.05
                                                            ௑ᫎ/s
                                                            B  ࠄै3*3
                               1.0
                              ࣨए  0.5

                                0
                                 0          0.01       0.02        0.03       0.04        0.05
                                                            ௑ᫎ/s
                                                        C  ᘿູขၷੇᄊ3*3

                               1.0
                              ࣨए  0.5

                                0
                                 0          0.01       0.02        0.03       0.04        0.05
                                                            ௑ᫎ/s
                                                    D  ౎͈ၷੇࠫઈᎪፏၷੇᄊ3*3
                                                   图 3  不同 RIR 的时域图
                                         Fig. 3 Time-domain diagrams of different RIRs
   70   71   72   73   74   75   76   77   78   79   80