Page 161 - 《应用声学》2022年第4期
P. 161

第 41 卷 第 4 期         程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法                                          659


                 所有语声和噪声信号的采样率均为 16 kHz。                       噪声场景下的平均 PESQ 和 STOI 结果分别如表 2
             STFT的帧长为 512(32 ms),帧移为 256(16 ms),帧              和表3所示。
             重叠度为 50%,因此语声信号幅度谱的频率维度为                            表 2  基于不同代价函数的 LSTM 单通道语声增强
             257。LSTM 网路的输入特征是当前帧带噪语声的                           算法在训练集噪声场景下的平均 PESQ 得分
             LPS。每个隐藏层有512个节点,最后一层全连接层                           Table 2   Average PESQ results of single-
             有257个节点,激活函数为 sigmoid 函数。训练模型                       channel speech enhancement based on LSTM
             时,设置的批大小为128。采用Adam优化器更新权                           with different cost functions under seen noise
             重,学习率设置为 0.0003。为了提高模型的泛化性                          types
             能,防止过拟合,采用随机丢弃方法,每层隐藏层随
                                                                                           SNR/dB
             机丢弃部分节点,丢弃率为0.2。                                                   −5    0    5   10    15   20
                 本文虽然在网络训练中引入了基于人耳听觉                                带噪语声        1.72  2.02  2.34  2.67  2.99  3.29
             特性的代价函数,但目的仍然是提高增强后的语声                                   p = −1.9  1.66  1.77  2.16  2.54  2.79  2.93
             质量和可懂度,提升单通道语声增强算法性能。因                                   p = −1.5  1.93  2.32  2.74  3.10  3.33  3.47
             此,在测试阶段,采用以下 5种常用的客观评价标准                                  p = −1   2.52  2.92  3.25  3.48  3.64  3.78
                                                                WE    p = −0.5  2.82  3.12 3.36 3.54  3.70 3.84
             对算法进行评估:
                                                                     p = 0(MSE)  2.75  3.04  3.27  3.46  3.62  3.75
                 (1) PESQ:PESQ是用来评价语声质量的指标,
                                                                       p = 1    2.19  2.51  2.78  3.02  3.24  3.43
             与主观评价得分高度相关,取值在−0.5 ∼ 4.5之间。
                                                                       p = 2    1.83  2.11  2.40  2.68  2.97  3.27
                 (2) 信号失真综合评价标准 (Composite mea-
                                                                     COSH       2.63  2.95  3.22  3.44  3.62  3.78
             sure for signal distortion, CSIG) [31] :评价信号失真           IS        2.27  2.57  2.82  3.04  3.24  3.42
             度的指标,取值在1 ∼ 5之间。                                       logMSE      2.64  2.96  3.22  3.44  3.62  3.78
                 (3) 噪声失真综合评价标准 (Composite mea-                      WLR        2.78  3.08  3.31  3.51  3.68  3.82
             sure for noise distortion, CBAK) [31] :评价噪声失真           STOI       2.13  2.45  2.77  3.07  3.33  3.55
             度的指标,取值在1 ∼ 5之间。
                                                                表 3  基于不同代价函数的 LSTM 单通道语声增强算
                 (4) 整体语声质量综合评价标准 (Composite
                                                                法在训练集噪声场景下的平均 STOI 得分
             measure for overall speech quality, COVL) [31] :评  Table 3 Average STOI results of single-channel
             价整体语声质量的标准,取值在1 ∼ 5之间。                             speech enhancement based on LSTM with dif-
                 (5) STOI:STOI 是用来评价语声可懂度的指                     ferent cost functions under seen noise types
             标,取值在 0 ∼ 1 之间,STOI 得分越高代表语声可
                                                                                           SNR/dB
             懂度越好。
                                                                                −5    0    5    10   15   20
                 这些评价标准均以干净语声为参考信号,与估
                                                                    带噪语声        0.72  0.80  0.87  0.93  0.96  0.98
             计的干净语声进行对比计算得分,分数越高代表算
                                                                      p = −1.9  0.60  0.68  0.76  0.83  0.88  0.90
             法性能越好。                                                   p = −1.5  0.69  0.77  0.85  0.91  0.94  0.96

                 本文利用LSTM网络对表1中代价函数的性能                                 p = −1   0.81  0.88  0.93  0.96  0.98 0.99
             进行了测试,并与 MSE 代价函数和 STOI 代价函                        WE    p = −0.5  0.86  0.91  0.95 0.97 0.98  0.99
             数  [18]  进行了对比。                                         p = 0 (MSE) 0.87  0.92 0.95 0.97  0.98  0.99
                                                                       p = 1    0.82  0.88  0.93  0.95  0.97  0.99
             3.2   实验结果                                                p = 2    0.75  0.82  0.88  0.93  0.96  0.98
                 首先,针对训练集噪声场景,对基于不同代价                                COSH       0.84  0.90  0.93  0.96  0.98 0.99
             函数的 LSTM 单通道语声增强算法的性能进行分                                 IS        0.82  0.88  0.92  0.95  0.97  0.98
             析。从训练集所用的 115 种噪声中随机选取 6 种噪                            logMSE      0.85  0.90  0.94  0.96  0.98 0.99
             声,与 60 句测试集干净语声按照不同 SNR 进行混                             WLR        0.87  0.92 0.95 0.97  0.98 0.99
                                                                     STOI       0.83  0.89  0.93  0.95  0.97  0.98
             叠构建测试带噪语声。不同代价函数在 6 种训练集
   156   157   158   159   160   161   162   163   164   165   166