Page 76 - 《应用声学》2023年第2期
P. 76

264                                                                                  2023 年 3 月


                                                               本文选用的混响时间盲估计模型是文献[25]中提出
                   600
                                                               的单步估计网络。该模型的计算复杂度适中,且网
                   500
                   400                                         络性能优良。在预处理阶段,使用窗长为 20 ms、间
                  ஝᧚  300                                      隔为 10 ms的汉宁窗对每句语声进行分帧和短时傅

                   200                                         里叶变换。将短时傅里叶变换后的幅度谱输入混响
                   100                                         时间盲估计模型,由模型输出每帧的混响时间估计。
                                                               本文的估计模型在原有模型的基础上做了如下两
                       0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5
                                   ຉ־௑ᫎ/s                      点改进:(1) 使用非因果卷积,使得网络能够更有效
                                                               利用上下文信息。(2) 由连续多帧输出的平均值决
                   图 4  真实的 RIR 数据库的混响时间分布
                                                               定最终估计结果,减少估计结果的方差。
              Fig. 4 Reverberation time distribution of real RIRs
                                                               2.4  估计性能评价指标
                   500
                                                               2.4.1 估计误差
                   400
                                                                   估计误差定义为估计值与真实值的差值,可
                  ஝᧚ 300                                       表示为
                   200
                                                                                e = T 60 − T 60 ,         (4)
                                                                                         b
                   100
                                                               其中,T 60 表示混响时间真实值,T 60 表示混响时
                                                                                               b
                     0                                         间估计值。对于 n 个样本,定义均方根误差 (Root
                       0.3  0.4  0.5  0.6  0.7  0.8  0.9  1.0  1.1  1.2  1.3  1.4  1.5
                                   ຉ־௑ᫎ/s                      mean square error, RMSE)为
                                                                              √
                图 5  使用条件生成对抗网络生成的 RIR 数据库的                                     1  ∑ n  (           ) 2
                                                                     RMSE =              T 60,i − T 60,i  ,  (5)
                                                                                                b
                混响时间分布                                                          n    i=1
               Fig. 5 Reverberation time distribution of RIRs  其中,i表示样本的下标。
               generated by conditional GAN
                                                               2.4.2 皮 尔 森 相 关 系 数 (Pearson correlation
             2.2 混响语声训练集构建                                            coefficient)
                 基于房间系统的 LTI 假设,混响语声在时域可                           由于估计误差和 RMSE 没有被混响时间的真
             以表示为纯净语声和RIR的卷积。由于不可避免地                           实值归一化,所以它们不能完全表征估计模型的性
             存在噪声,因此在构建数据集时通常也考虑加性噪
                                                               能。因此,使用皮尔森相关系数 ρ 作为另一个评价
             声。混响语声y(t)的信号模型如公式(3)表示:
                                                               指标。估计结果越准确,ρ就越接近1。
                         y(t) = s(t) ∗ h(t) + n(t),     (3)        对于 n 个样本,皮尔森相关系数 ρ 的公式可
                                                               表示为
             其中,s(t)表示纯净语声信号,h(t)表示RIR,n(t)表
                                                                          n
             示噪声信号,∗表示卷积操作。                                              ∑  (T 60,i − T 60 )(T 60,i − T 60 )
                                                                                                b
                                                                                         b
                 为了提高模型在噪声混响环境中的鲁棒性,本                                    i=1
                                                                ρ = v                 v                  , (6)
             文在训练时考虑了 ACE 挑战赛中的 3 种加性噪声。                            u n              2 u n             2
                                                                    u∑
                                                                                      u∑
                                                                                                    b
                                                                                             b
             信噪比从 0 dB、10 dB 和 20 dB 中随机选取,根据                       t     (T 60,i − T 60 )  t  (T 60,i − T 60 )
                                                                       i=1               i=1
             信噪比将噪声按不同比例加入混响语声中。语声
             被切分为每句 4 s,采样率为 16 kHz。分别使用 3 种                   其中,T 60 表示估计的混响时间的平均值,T 60 表示
                                                                     b
             RIR模拟方法构建的3 个RIR数据库以及真实 RIR                       混响时间真实值的平均值。
             数据库进行混响语声训练集模拟。每个语声训练集
                                                               3 实验与结果讨论
                           4
             总共包含3 × 10 句语声,总时长约为33 h。
             2.3 混响时间盲估计模型                                     3.1  声学实验设置
                 本文测试使用不同训练集训练的混响时间盲                               在模拟训练集时,基于房间LTI系统假设,可以
             估计模型的性能,从而间接判断模拟的RIR的质量。                          使用纯净语声和 RIR 卷积模拟混响语声。因此,大
   71   72   73   74   75   76   77   78   79   80   81