Page 74 - 《应用声学》2023年第2期
P. 74

262                                                                                  2023 年 3 月


             据作为测试集,以验证同一深度学习模型框架经不                            间作为条件向量。其次,对生成器的输出进行归一
             同 RIR 数据集训练后在真实环境下混响时间盲估                          化。由于 RIR 具有尺度不变性,因此对生成器的输
             计的性能。                                             出的 RIR 进行归一化使其最大值为 1,可以增加训
                                                               练过程的稳定性。
             1 提出的RIR模拟法
                                                                    ᝫጷᬷ                    ၷੇ
                                                                    ஝૶                    ࠫઈᎪፏ
                 GAN  [17]  是一种将低维数据映射成高维数据的
             模拟模型。GAN 包含互相交替训练的生成器和判                               ᄾࠄ੝ᫎ               ᄾࠄ஝૶ x r
                                                                   ᑢф־ऄ
             别器。生成器的训练目标是将噪声向量从噪声的分
                                                                                                Ѽѿ٨     ४Ѭ
             布中映射到目标数据的分布,而判别器的训练目标                                ٪ܦՔ᧚       ၷੇ٨     ၷੇ஝૶ x f
             是区分输入是由生成器产生数据的还是真实数据。
             在训练过程中,生成器朝着生成使判别器难以区分
             的样本的方向进行优化,而判别器朝着能够区分生                                 图 1  基于 GAN 的 RIR 模拟方法算法流程图
             成的数据和真实数据的方向进行优化,生成器和判                               Fig. 1 RIR simulation framework based on GAN
             别器处于对抗博弈的状态。在一段时间的交替训练
                                                                    ᝫጷᬷ                   ౎͈ၷੇ
             后,生成器生成的数据将与真实数据难以分辨,从而                                ஝૶                    ࠫઈᎪፏ
             可以使用生成器进行数据增广等应用。条件生成对
                                                                   ᄾࠄ੝ᫎ                ᄾࠄ஝૶
             抗网络   [18]  是 GAN 的一种扩展形式。与 GAN 不同                    ᑢф־ऄ                 x r,c
             之处在于,条件生成对抗网络的生成器在生成样本                                                             Ѽѿ٨     ४Ѭ
                                                                                       ၷੇ஝૶
             时需要额外输入条件向量,而判别器在区分样本时                                ٪ܦՔ᧚        ၷੇ٨      x f , c
             也需要额外的输入条件向量,通过样本和对应的条
             件向量区分生成样本和真实样本。                                                  ຉ־௑ᫎ
                                                                              ౎͈Ք᧚
             1.1 算法流程图                                            图 2  基于条件生成对抗网络的 RIR 生成模拟算法
                 本文使用混响时间作为条件生成对抗网络的                              流程图
             额外输入条件。通过控制这个输入条件,可以人为                               Fig. 2 RIR simulation framework based on con-
             控制生成器模拟的 RIR 的混响时间,使模拟的 RIR                          ditional GAN
             数据集涵盖大范围的混响时间。图 1 和图 2 中分别                        1.3  损失函数
             是基于 GAN 的 RIR 模拟方法和基于条件生成对抗                           为了提高训练的稳定性,本文使用 WGAN 损
             网络的RIR模拟方法算法流程图。                                  失函数    [20]  对模型进行优化,使模型生成样本的

             1.2 网络架构                                          分布逼近真实样本的分布。公式 (1)∼(2) 表示了
                                                               WGAN 生成器的损失函数 L G 和判别器的损失函
                 为了保证模拟高质量的 RIR, 本方法基于
                                                               数L D :
             WaveGAN网络架构       [19]  进行拓展。WaveGAN网络
             架构针对声频信号的周期性等特点,通过叠加大步                                       L G = −E x f ∼Q [C (x f , c)] ,  (1)
             长卷积层增加了卷积神经网络的感受野。该网络
                                                                L D =−E x r ∼P [C(x r , c)]+ E x f ∼Q [C(x f , c)] , (2)
             架构被广泛应用于语声模拟、音效模拟等声频模拟
             任务。然而,WaveGAN 属于一般 GAN,无法额外                       其中,x r 表示真实的数据向量,x f 表示生成器生成
             输入条件向量对生成器进行限制。因此,本文基于                            的数据向量,c表示条件向量,E表示数学期望,C 表
             WaveGAN网络架构,结合条件模拟RIR的任务,进                        示判别器根据输入向量的真实程度从输入向量到
             行如下改进:首先,将条件向量加入生成器和判别器                           得分的映射函数。输入向量越接近真实输入,得分
             的输入中。对于每一个真实 RIR 训练样本,计算其                         越高;输入向量越偏离真实输入,得分越低。在生
             混响时间作为条件向量。在生成器将噪声向量映射                            成器的损失函数中,生成器的目标是最大化生成的
             到生成样本的过程中,随机选取0.3∼1.5 s的混响时                       数据向量经过判别器后的得分,使生成数据的分布
   69   70   71   72   73   74   75   76   77   78   79