Page 159 - 《应用声学》2022年第4期
P. 159

第 41 卷 第 4 期         程琳娟等: 人耳听觉相关代价函数深度学习单通道语声增强算法                                          657


             特征映射方法的优势。如图 1 所示,本文使用 SA方                        增强算法中提出了一系列基于人耳听觉的代价函
             法对LSTM网络进行训练。                                     数 [19,24−26] 。本文引入这些代价函数替代 MSE 代
                                                               价函数对 LSTM 网络进行训练,以提高基于 LSTM
                                                               的单通道语声增强算法的性能,提升语声质量和可
                     ⌣
                     x↼n↽
                                                               懂度。
                                                               2.2.1  WE代价函数

                                                                   WE 代价函数是一种关于心理声学的代价函
                                                               数,由 Loizou  [19]  基于低速率语声编解码器中所使
                                         ⌣  ⌣
                           ͥᝠᄊᄬಖឦܦࣨए៨ X k /M k Y k
                                                               用的感知加权法所提出。感知加权法主要利用了人
                                                               耳听觉系统的掩蔽特性,在语声能量较大的时频段
                                      ⌣
                                      ᣥѣࡏ M k
                                                               (如语声共振峰) 附近,大部分量化噪声被语声掩盖,
                                  LSTM
                                                               很难被检测到,信噪比较高。而在语声能量较小的
                                                               时频段,噪声能量占主要成分,信噪比较低。低速率
                                  LSTM
                    Y k
                                                               语声编解码器采用感知加权法,用加权滤波器对误
                                  ᣥКࡏ                          差频谱进行整形。滤波器的形状类似于原始信号的
                                                               频谱倒数,即语声谱谷值附近的误差被放大,谱峰
                                   LPS
                                                               值附近的误差被缩小,可以进一步抑制谱谷值附近
                                                               的噪声,更侧重于恢复能量较小且易被噪声干扰的
                                                               干净语声段,提高整段语声的质量和可懂度。基于
                                                               此,Loizou 提出用 1/X k 对 MSE 代价函数进行加权
                                      STFT
                                                               滤波,可表示为
                      y↼n↽
                                                                         (       )    1  (       ) 2
                                                                                               ˆ
                                                                               ˆ
                                                                        d X k , X k =    X k − X k  .     (9)
                                                                                     X k
                  图 1  基于 LSTM 的单通道语声增强算法框图
                                                                   由式 (9) 可以看出,当语声能量较小时,即 X k
               Fig. 1  Diagram of LSTM-based single-channel
                                                               较小,则该加权 MSE 代价函数的权重更大,对误差
               speech enhancement
                                                               的惩罚力度更强;当语声能量较大时,即 X k 较大,
                 网络隐藏层包括两层 LSTM,每层有 512 个节                     则该加权MSE代价函数的权重更小,对误差的惩罚
             点,输出层为 FCN,激活函数为 sigmoid 函数,将网                    力度更弱。考虑到更一般的形式,将X 作为加权滤
                                                                                                 p
                                                                                                 k
             络输出值限定在 [0, 1] 之间。网络输出与带噪语声                       波器,称为WE代价函数,其中p为大于2的常数,即
             幅度谱相乘得到对干净语声幅度谱的估计,根据估
                                                                         (      )     p  (       ) 2
                                                                                               ˆ
                                                                              ˆ
             计干净语声幅度谱和真实干净语声幅度谱计算代                                  d WE X k , X k = X k  X k − X k  .   (10)
             价函数。当模型完成训练,在增强阶段,利用估计干
                                                               当 p < 0,干净语声能量较小的时频点权重更大,误
             净语声幅度谱和带噪语声相位根据重叠相加法恢
                                                               差值更大,此时噪声占主要成分,因此能够更大程
             复出干净语声时域信号 ˆx(n)。
                                                               度地降低噪声残留;当 p > 0,则WE 代价函数在语
             2.2 基于人耳听觉的代价函数                                   声共振峰附近的误差较大,更侧重于恢复语声共振
                 由于 MSE代价函数形式简单,易于求导,MSE                       峰附近的干净语声,保留更多语声信息。当 p = 0,
             函数成为语声增强算法中最常用的代价函数。然而                            式 (10) 称为 MSE 代价函数。WE 代价函数根据人
             MSE 代价函数误差值的大小与语声质量好坏并非                           耳听觉掩蔽特性,利用参数 p 调节代价函数优化方
             完全线性相关。考虑到人耳听觉掩蔽效应和共振峰                            向,控制对残留噪声和干净语声的优化。本文取
             对语声质量及可懂度的重要性等因素,在传统语声                            p = [−1.9, −1.5, −1, −0.5, 0, 1, 2]。
   154   155   156   157   158   159   160   161   162   163   164