Page 74 - 《应用声学》2023年第2期
P. 74
262 2023 年 3 月
据作为测试集,以验证同一深度学习模型框架经不 间作为条件向量。其次,对生成器的输出进行归一
同 RIR 数据集训练后在真实环境下混响时间盲估 化。由于 RIR 具有尺度不变性,因此对生成器的输
计的性能。 出的 RIR 进行归一化使其最大值为 1,可以增加训
练过程的稳定性。
1 提出的RIR模拟法
ᝫጷᬷ ၷੇ
ࠫઈᎪፏ
GAN [17] 是一种将低维数据映射成高维数据的
模拟模型。GAN 包含互相交替训练的生成器和判 ᄾࠄᫎ ᄾࠄ x r
ᑢф־ऄ
别器。生成器的训练目标是将噪声向量从噪声的分
Ѽѿ٨ ४Ѭ
布中映射到目标数据的分布,而判别器的训练目标 ٪ܦՔ᧚ ၷੇ٨ ၷੇ x f
是区分输入是由生成器产生数据的还是真实数据。
在训练过程中,生成器朝着生成使判别器难以区分
的样本的方向进行优化,而判别器朝着能够区分生 图 1 基于 GAN 的 RIR 模拟方法算法流程图
成的数据和真实数据的方向进行优化,生成器和判 Fig. 1 RIR simulation framework based on GAN
别器处于对抗博弈的状态。在一段时间的交替训练
ᝫጷᬷ ͈ၷੇ
后,生成器生成的数据将与真实数据难以分辨,从而 ࠫઈᎪፏ
可以使用生成器进行数据增广等应用。条件生成对
ᄾࠄᫎ ᄾࠄ
抗网络 [18] 是 GAN 的一种扩展形式。与 GAN 不同 ᑢф־ऄ x r,c
之处在于,条件生成对抗网络的生成器在生成样本 Ѽѿ٨ ४Ѭ
ၷੇ
时需要额外输入条件向量,而判别器在区分样本时 ٪ܦՔ᧚ ၷੇ٨ x f , c
也需要额外的输入条件向量,通过样本和对应的条
件向量区分生成样本和真实样本。 ຉ־ᫎ
͈Ք᧚
1.1 算法流程图 图 2 基于条件生成对抗网络的 RIR 生成模拟算法
本文使用混响时间作为条件生成对抗网络的 流程图
额外输入条件。通过控制这个输入条件,可以人为 Fig. 2 RIR simulation framework based on con-
控制生成器模拟的 RIR 的混响时间,使模拟的 RIR ditional GAN
数据集涵盖大范围的混响时间。图 1 和图 2 中分别 1.3 损失函数
是基于 GAN 的 RIR 模拟方法和基于条件生成对抗 为了提高训练的稳定性,本文使用 WGAN 损
网络的RIR模拟方法算法流程图。 失函数 [20] 对模型进行优化,使模型生成样本的
1.2 网络架构 分布逼近真实样本的分布。公式 (1)∼(2) 表示了
WGAN 生成器的损失函数 L G 和判别器的损失函
为了保证模拟高质量的 RIR, 本方法基于
数L D :
WaveGAN网络架构 [19] 进行拓展。WaveGAN网络
架构针对声频信号的周期性等特点,通过叠加大步 L G = −E x f ∼Q [C (x f , c)] , (1)
长卷积层增加了卷积神经网络的感受野。该网络
L D =−E x r ∼P [C(x r , c)]+ E x f ∼Q [C(x f , c)] , (2)
架构被广泛应用于语声模拟、音效模拟等声频模拟
任务。然而,WaveGAN 属于一般 GAN,无法额外 其中,x r 表示真实的数据向量,x f 表示生成器生成
输入条件向量对生成器进行限制。因此,本文基于 的数据向量,c表示条件向量,E表示数学期望,C 表
WaveGAN网络架构,结合条件模拟RIR的任务,进 示判别器根据输入向量的真实程度从输入向量到
行如下改进:首先,将条件向量加入生成器和判别器 得分的映射函数。输入向量越接近真实输入,得分
的输入中。对于每一个真实 RIR 训练样本,计算其 越高;输入向量越偏离真实输入,得分越低。在生
混响时间作为条件向量。在生成器将噪声向量映射 成器的损失函数中,生成器的目标是最大化生成的
到生成样本的过程中,随机选取0.3∼1.5 s的混响时 数据向量经过判别器后的得分,使生成数据的分布