Page 166 - 《应用声学》2022年第4期
P. 166

664                                                                                  2022 年 7 月


                 1.0                   1.0                    1.0                   1.0



                 0.5                   0.5                    0.5                   0.5




                  0                      0                     0                     0
                   0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0
                       (a) p=-1.9             (b) p=-1              (c) p=-0.5          (d) p=0(MSE)

                 1.0                   1.0                    1.0                   1.0




                 0.5                   0.5                    0.5                   0.5




                  0                      0                     0                     0
                   0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0  0  0.2 0.4 0.6 0.8  1.0
                           G WE                  G WE                  G WE                   G WE
                         (e) p=1               (f) p=2              (g) logMSE             (h)  ࠄᬅϙ
               图 7  基于 WE 和 logMSE 代价函数的 LSTM 算法估计的增益函数值分布图以及根据干净语声和噪声计算出的实际
               增益函数值分布图的对比
               Fig. 7 Normalized distribution of the estimated gain value from LSTM model with WE cost function for different
               values of p and logMSE cost function. The gain values distribution of ideal gain function calculated from clean
               speech and noise is also plotted for comparison


                 FCN 有 3 层隐藏层,每个隐藏层有 1024 个节                                表 7  CRN 的具体参数
             点。为了利用上下文信息,将连续 5 帧的带噪语声                            Table 7 The architecture of the CRN model
             LPS 特征串联作为输入,因此输入特征的维度为
             257 × 5 = 1285。网络的学习目标是对应的中间帧                           网络层      输入维度        超参数      输出维度
                                                                   Conv2D_1  1×T ×257  1×3, (1, 2), 8  8×T ×128
             的干净语声幅度谱。在网络训练中,计算误差时设
                                                                   Conv2D_2  8×T ×128  1×3, (1, 2), 16  16×T ×63
             置的批大小为 1024。采用 Adam优化方法更新网络
                                                                   Conv2D_3  16×T ×63  1×3, (1, 2), 32  32×T ×31
             权重,学习率为0.0003。                                        Conv2D_4  32×T ×31  1×3, (1, 2), 64  64×T ×15
                 CRN 包括编解码模块和时序建模模块。其中                             Conv2D_5  64×T ×15  1×3, (1, 2), 128 128×T ×7
             编解码模块包括 6 层卷积层和 6 层反卷积层,时序                            Conv2D_6  128×T ×7  1×3, (1, 2), 256 256×T ×3
             建模模块包括两层LSTM网络。为了将输入特征信                               Reshape_1  256×T ×3              T ×768
                                                                   LSTM_1      T ×768      768      T ×768
             息有效传递到后面的网络,在训练过程中使用了跳
                                                                   LSTM_2      T ×768      768      T ×768
             转连接方法,将每个卷积层网络的输出与其对应的
                                                                   Reshape_2   T ×768              256×T ×3
             反卷积层输入进行连接重新作为输入。CRN 的输                              Deconv2D_6  512×T ×3  1×3, (1, 2), 128 128×T ×7
             入特征是带噪语声当前帧的 LPS 特征,维度为 257。                         Deconv2D_5  256×T ×7  1×3, (1, 2), 64  64×T ×15
             训练目标是干净语声的257维幅度谱特征。CRN的                             Deconv2D_4 128×T ×15  1×3, (1, 2), 32  32×T ×31
             具体参数如表 7 所示,其中 T 表示一个句子的总帧                           Deconv2D_3  64×T ×31  1×3, (1, 2), 16  16×T ×63
                                                                  Deconv2D_2  32×T ×63  1×3, (1, 2), 8  8×T ×128
             数。在训练网络时,计算误差所用的批大小设置为
                                                                  Deconv2D_1 16×T ×128  1×3, (1, 2), 1  1×T ×257
             16。网络通过 Adam 优化器更新权重,学习率设置
                                                                   Reshape_3  1×T ×257              T ×257
             为0.0003。
   161   162   163   164   165   166   167   168   169   170   171