Page 86 - 《应用声学》2023年第2期
P. 86

274                                                                                  2023 年 3 月


             额外的负担,因为知识的转移过程完全在训练阶段                            别用I7 8700型号的CPU测量了学生模型和教师模
             进行,用于推断的基础模型并未改变。因此,本文算                           型处理 6.25 ms 一帧数据所花费的时间,教师模型
             法能够无负担地提升学生模型的增强效果。在表 2                           单帧执行时间为 3.38 ms,而学生模型则是 2.02 ms,
             中可以观察到,除了 MetricGAN 模型外,本文所提                      这说明所提师生学习方法在参数量级和延时方面
             算法相比其他算法在各项指标上均具有优势地位。                            实现了对教师模型的压缩,同时维持了较好的增强
             MetricGAN 模型由于其结构是非因果的,并不适                        效果。
             用于实时应用。而本文模型仅具有 0.23 M 的参数                            图2中展示了测试集中一条带噪语声的处理效
             量,且结构为因果的,利于现实场景下的实时应用                            果,可以观察到经过师生学习的引导,学生模型对于
             部署。为了进一步证明算法在延时方面的改进,分                            噪声的滤除更加干净。


                             8                                   8

                             6                                   6
                            ᮠဋ/kHz  4                           ᮠဋ/kHz  4



                             2                                   2


                             0                                   0
                                0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0  0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
                                            ௑ᫎ/s                                ௑ᫎ/s
                                          (a) ࣰьឦܦ                            (b) ࣜ٪ឦܦ
                             8                                   8


                             6                                   6
                            ᮠဋ/kHz  4                           ᮠဋ/kHz  4



                             2                                   2

                             0                                   0
                                0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0  0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
                                            ௑ᫎ/s                                ௑ᫎ/s
                                         (c) DCCRN-S                         (d) DCCRN-TS
                                            图 2  测试集语声 p232_170 的语谱图结果
                                   Fig. 2 Speech spectrogram results for test set speech p232_170
             3.2 DNS Challenge 数据集实验结果分析                         表 3 所提出的模型与其他算法在 DNS Challenge

                 为了更好地证明所提算法的性能,在更大规模                            数据集上的客观语声质量评估结果
             的数据集 DNS Challenge 上进行了对比实验。由于                      Table 3 Results of objective speech quality
                                                                 evaluation of the proposed model with other
             本文算法着眼于降低模型的参数量,选择因果低复
                                                                 algorithms on DNS Challenge dataset
             杂度的模型 NSNet      [21] 、RNNoise  [22]  和本文算法进
             行对比。各算法的评估指标对比如表3所示。                                     模型       Cau.  Param.(M)  PESQ  STOI
                 从实验结果看,采用MRSTFT损失的DCCRN-S                           Noisy      –       –       1.58  0.91
             相比原版的基线模型在 PESQ 指标上有略微提升,                               NSNet      X      1.30     2.15  0.94
                                                                    RNNoise     X      0.06     1.97  0.93
             而在此基础上进行师生学习引导优化的 DCCRN-
                                                                   DCCRN-T      X      2.81     2.70  0.96
             TS模型取得了进一步的提升,这证明在大规模数据                              DCCRN-O-S     X      0.23     2.39  0.94
             集DNS Challenge上本文所提出的师生学习方法仍                          DCCRN-S      X      0.23     2.40  0.94
             然有效。但注意到经过师生学习后,与教师模型的                                DCCRN-TS     X      0.23     2.44  0.94
   81   82   83   84   85   86   87   88   89   90   91