Page 78 - 《应用声学》2023年第2期
P. 78

266                                                                                  2023 年 3 月


                 模型在 4 个房间中的估计误差箱线图如图 6 所                      真实数据、GAN分别在短、中、长混响时间下效果最
             示。从图 6 中可以看出,在低混响时间场景下 (房间                        佳;由于在真实数据集中,中等混响时间数据显著多
             1),4 个模型的误差和方差与其他场景下相比最小,                         于短混响时间和长混响时间数据,使用真实数据训
             4 个模型均存在高估混响时间的趋势;在中等混响                           练的模型的估计集中在中等混响时间,因而模型在
             时间场景下 (房间 2、房间 3),真实数据训练的模型                       中等混响时间下性能最优异。
             和方差较小,而所提方法训练的模型误差和偏差较
                                                                  表 3   不同混响时间下,两两模型之间的 Fisher
             大;在长混响时间场景下 (房间 4),所提方法训练的
                                                                  LSD 事后检验
             模型误差和方差最小,4 个模型均存在低估混响时
                                                                  Table 3 Results of Fisher LSD post hoc
             间的趋势。
                                                                  test between four methods in different re-
                                                                  verberation time
                    400
                    200 0                                        混响               RMSE/ms          p 值
                 ͥᝠឨࣀ/ms  -200                                   时间/s  真实数据 (I)  均值 ± 标准差     I     II    III
                                                                          方法

                                                                                   121 ± 63
                  -400
                  -600      ᄾࠄ஝૶      ᘿູข                               Schroder   32 ± 71  < 0.01
                            ஷᎭॴവی     ၷੇࠫઈᎪፏ                     0.32
                  -800                                                   模型 (II)
                         ੝ᫎ1     ੝ᫎ2     ੝ᫎ3     ੝ᫎ4                    虚源法 (III)  67 ± 87  < 0.01 < 0.01
                                     ੝ᫎ
                                                                        GAN(IV)    67 ± 76  < 0.01 < 0.01 0.980
                图 6  4 种方法训练的混响时间盲估计模型在不同
                                                                       真实数据 (I)    63 ± 49
                房间中的估计误差箱线图。房间的尺寸与声学参数
                                                                        Schroder
                见表 1                                           0.82∼0.83  模型 (II)  173 ± 109  < 0.01
               Fig. 6  Estimation errors of four methods and
                                                                        虚源法 (III)  90 ± 88  < 0.01 < 0.01
               baselines in different rooms. The details of the
                                                                        GAN(IV)    149 ± 113  < 0.01 < 0.01 < 0.01
               room configuration are shown in Table 1
                                                                       真实数据 (I)    500 ± 117
                 为了探究在不同混响时间下各个模型的估                                     Schroder
             计性能的影响,将模型和混响时间作为自变量,                               1.51    模型 (II)   308 ± 109  < 0.01
             RMSE 作为因变量进行双因素方差分析 (Analy-                                虚源法 (III)  269 ± 92  < 0.01 < 0.01
             sisof variance, ANOVA)。统计结果表明:不同模                          GAN(IV)    127 ± 82  < 0.01 < 0.01 < 0.01
             型 [F(3, 11996) = 794.86; p < 0.01] 和不同混响时
             间 [F(2, 11997) = 5596.41; p < 0.01] 对模型估计的            为了探究使用本方法所生成的 RIR 对真实数
             RMSE 均存在显著性影响;模型和混响时间存在                           据增广的效果,使用 GAN 模拟混响时间大于 0.8 s
             显著的交互作用 [F(6, 11988) = 1207.11; p < 0.01]。        的RIR 对真实数据集进行增广,使真实数据集的长
             表 3 展示了在不同混响时间下,两两模型之间的                           混响数据与中短混响数据数量接近。使用增广后的
             Fisher LSD 事后检验。统计结果表明:随着混响时                      混合 RIR 数据集作为训练集训练盲混响估计模型,
             间的增加,模型的性能总体上有所下降。在短混响                            并在相同的测试集下测试盲混响估计模型的性能。
             时间的情景下,Schroder 模型具有最小的估计误差                       混合数据、真实数据与 GAN 模拟数据训练的混响
             和方差,除了虚源法和 GAN 方法之外,其他方法均                         时间盲估计模型在不同信噪比的真实测试集下的
             存在显著的统计学差异;在中等混响时间的情景下,                           性能如表 4 所示。可以看出,混合模型在高信噪比
             真实数据具有最小的估计误差和方差,所有方法均                            条件(10 dB、15 dB、20 dB)下具有最小的均方根误
             存在显著的统计学差异;在长混响时间的情景下,本                           差和最大的皮尔森相关系数,表明了混合模型在高
             文提出的GAN显著优于其他模型。                                  信噪比下具有优势,而基于 GAN 的模型在低信噪
                 从以上统计结果中可以看出,随着混响时间的                          比下更具有优势。为了探究 3 个模型在具有不同混
             增加,混响时间估计任务的难度更大,在不同的混响                           响时间的房间中的性能,模型在 4 个房间中的估计
             时间下不同的模型取得最优性能。Schroder 模型、                       误差箱线图如图7所示。
   73   74   75   76   77   78   79   80   81   82   83