Page 85 - 《应用声学》2023年第2期
P. 85

第 42 卷 第 2 期          卞金洪等: 深度复卷积递归网络模型的师生学习语声增强方法                                          273


                 所有的语声数据使用 16 kHz采样。使用 32 ms                   练的时域膨胀卷积网络           [17] ,用于声频源分离的端到
             的汉宁窗并设置帧移为 50%。STFT 点数设置为                         端算法Wave-U-Net     [18] ,基于离散余弦变换的DNN
             512 点,输入复频谱特征为 257 维。使用 Adam优化                    语声增强方法        [19] ,以及利用多种客观评价指标
             器对网络进行训练,学习率设置为 0.0006,总训练                        训练生成对抗网络生成器的算法 MetricGAN                  [20] 。
             轮数(epoch)为20,批处理大小为16,在一个小批次                      而本文用于师生学习的教师模型和学生模型单独
             中,所有样本被零填充以具有和最长样本相同的时                            训练的版本分别为DCCRN-T 和DCCRN-S。其中,
             间步。                                               DCCRN-O-S 模型由文献 [9] 中的 SISNR损失进行

             2.2 评价指标                                          训练所得,而其余 DCCRN 模型均采用 MRSTFT
                 为了评估各模型的增强效果,选择以下客观语                          损失进行训练。
             声评估指标用于性能的评判。WB-PESQ:ITU-T                            表 2 中展示了本文算法与其他算法的客观指标
             P.862.2推荐的语声质量感知评估方法,本文选用它                        对比。为了比较所提算法与现有算法在计算复杂
             的宽带版本     [12] ;STOI:语声短时客观可懂度评估方                 度上的差异,表 2 中给出了算法因果性 (Cau.) 和模
             法  [13] ,其得分范围为 0 ∼ 1 之间,越高的得分意味                  型参数量 (M 单位为百万,K 单位为千) 的说明。其
             着越好的语声可懂度;CSIG:信号失真的平均意见                          中,模型的因果性决定了其是否能够进行实时的部
             得分 (Mean opinion score, MOS) 预测    [14] ;CBAK:    署。而对于因果的模型,其参数量的大小反映了模
             背景噪声干扰侵入下的 MOS 评分预测                [14] ;COVL:    型的空间复杂度。注意到,采用 MRSTFT损失训练
             整体语声质量的MOS评分预测              [14] 。                的学生模型相比于使用 SISNR 的 DCCRN-O-S 模
                                                               型仅在 CBAK 一项指标上略有降低,其余指标均
             3 实验结果评估与分析结论
                                                               有一定提升,这说明 MRSTFT 损失能够利用多个

             3.1 Voice Bank Demand 数据集实验结果分析                   尺度的频域信息,更好地引导学生模型优化。而本
                 为了评估所提算法的性能,选择了一些在Voice                       文所提算法 DCCRN-TS 基于师生学习的方法,利
             Bank Demand 数据集上公开结果的算法进行性能                       用预训练的教师模型知识引导学生模型取得更好
             上的对比,包括基于先验信噪比估计的维纳滤                              的增强效果。相比学生模型 DCCRN-S,所提出的
             波算法   [15] ,基于时域 U-Net 结构的生成对抗网络                  DCCRN-TS模型在各项指标上均有提升,并显著缩
             (Speech Enhancement Generative Adversarial Net-   短了与教师模型间的差距。值得关注的是,本文所
             work)  [16] ,使用深度特征损失(Deep feature loss)训         提出的师生学习方法并不会在模型的推断阶段增加


                      表 2   所提出的模型与其他算法在 Voice Bank Demand 数据集上的客观语声质量评估结果
                     Table 2 Results of objective speech quality evaluation of the proposed model with
                     other algorithms on Voice Bank Demand dataset. The “–” indicates that the data
                     is not given in the original text

                          模型         Cau.    Param.(M)    PESQ     STOI     CSIG     CBAK      COVL
                         Noisy        –          –         1.97     0.92     3.35     2.44      2.63
                         Wiener       X       5.07 (K)     2.22      –       3.23     2.68      2.67
                        SEGAN         ×        97.47       2.16     0.93     3.48     2.94      2.80
                         DFL          ×          –          –        –       3.86     3.33      3.22
                       Wave-U-Net     ×        10.00       2.40      –       3.52     3.24      2.96
                         DCT          X         3.45       2.7       –       3.90     3.29      3.29
                       MetricGAN      ×          –         2.86     0.94     3.99     3.18      3.42
                       DCCRN-T        X         2.81       2.87     0.94    4.276     3.275    3.586
                      DCCRN-O-S       X         0.23       2.70     0.93    3.709     3.302    3.187
                       DCCRN-S        X         0.23       2.74     0.94    4.175     3.295    3.465
                       DCCRN-TS       X         0.23       2.79     0.94    4.205     3.302    3.510
   80   81   82   83   84   85   86   87   88   89   90