Page 189 - 应用声学2019年第4期
P. 189

第 38 卷 第 4 期         叶中付等: 基于字典学习和稀疏表示的单通道语音增强算法综述                                          649

                                                                            ⌢ te
             号的结构性对稀疏表示的有效性也有一定的影响,                            噪声比率掩码P :
             因此文献[10]中采用的权重系数并不是最优的权重                                         n
                                                                        ⌢ te     ⌢ te  ⌢ te     ⌢ te
             系数,算法性能仍有进一步提升的空间。                                         P  s  = W s C , P  n  = W s C .  (22)
                                                                                   s
                                                                                                  n
                                                                   基于上述得到的比率掩码,文献 [14] 设计了两
             2.3 基于联合特征字典学习的语音增强算法
                                                               种掩码滤波器以实现更好的语音增强效果。第一种
                 文献 [14] 在生成性字典学习算法的基础上,引
                                                               为软掩码滤波器,由理想二值掩码滤波器和维纳滤
             入RM特征来挖掘带噪语音信号中语音信号和噪声
                                                               波器加权平均得到:
             的时频谱幅度的比例信息。首先在训练阶段,联合
             学习信号的时频谱幅度字典和比率掩码字典:                                 SM 1 (k, t) =
                                                                                        ⌢ te
                           
                   
 2
                           
     tr                
                                    P  s  (k, t)
                           
   S          D s      
              βJ (k, t) + (1 − β)                 ,  (23)
                     min   
        −        C tr 
                            ⌢ te       ⌢ te
                          tr
                  D s ,W s ,C s 
 λP  tr         s 
                               P s  (k, t) + P i  (k, t)
                                 s       λW s
                                                    F
                                                               其中,J (k, t) 为理想二值掩码滤波器,计算公式

                     s.t. c     6 q, ∀g ,              (19)
                         
 tr
                                                               如下:
                           s,g 0
                               tr
                          tr
                                                                                 ⌢ te
             其中,P   s tr  = S /N 表示对于语音信号理想比率                                 1, P         ⌢ te
                                                                            
             掩码,D s 和W s 分别表示语音信号的时频谱幅度字                           J (k, t) =      s  (k, t) > P  n  (k, t) ,  (24)
                                                                              0, 其他.
                                 tr
             典和比率掩码字典,C 表示相应的稀疏系数矩阵,
                                 s
                       tr
             c tr  表示C 的第g 列,q 是对应的稀疏约束阈值,λ               2    而式 (23) 中的第二项即为维纳形式的滤波器,β 为
                      s
              s,g
             则是权衡时频谱幅度近似误差项和理想比率掩码                             衡量这两个滤波器的权重值。显然,当 β = 0 时,
             近似误差项。                                            由式 (24) 得到的即为维纳形式的滤波器,反之当
                 同理建立对噪声时频谱幅度字典和理想比率                           β = 1时,得到的就是理想二值掩码滤波器。
             掩码字典的学习目标函数:                                          考虑到在某个时频点往往会出现语音成分或
                           
                   
 2         噪声成分占主导作用的情况,文献 [14] 中提出了第
                           
     tr
                           
   N          D n
                     min   
        −        C  tr 
       二种滤波器:
                  D s ,W s ,C tr 
  tr           n 
                        
                          s 
 λP
                                 n       λW n      
                                       ⌢ te
                                                    F                       
                                                                                         P s  (k, t)
                                                                            
                        
    
                                              1,                    > α,
                     s.t. c     6 q, ∀g ,              (20)                               ⌢ te
                        
 tr
                                                                            
                           n,g 0                                            
                                                                                         P   (k, t)
                                                                                           n
                                                                            
                                                                                           ⌢ te
                                                        tr
             其中,噪声的联合比率掩码字典为 P                n tr  = 1 − P ,   SM 2 (k, t) =             P   (k, t)  1  (25)
                                                        s
                                                                            0,
                                                                                           s      6   ,
             1 表示全 1 矩阵,其他变量与式 (19) 中的变量定义                                                ⌢ te
                                                                            
                                                                                                     α
                                                                                         P   (k, t)
             类似。                                                                           n
                                                                            
                                                                            
                                                                            
                                                                              SM 1 (k, t) ,  其他.
                 在增强测试阶段,基于训练得到的复合时频
             谱幅度字典 D = [D s , D n ] 和复合比率掩码字典                  显然,α 用于衡量语音成分是否占主导作用,当语音
             W = [W s , W n ],对带噪语音信号 X 和混合信号                  比率掩码值与噪声比率掩码值之比超过 α 时,则表
                                              te
             的比率掩码P      te  进行联合稀疏投影:                         明语音成分占主导作用,相应的掩码滤波值设为 1,
                                                               反之则认为是噪声,相应的滤波掩码值设为 0。然
                    
                       
 2
                    
    te
                    
 X          D s   D n      
              而,当语音比率掩码值和噪声比率掩码值所占成分
                min  
      −             C te 
  ,  (21)
                C te 
           λW s λW n      
              相差不大时,则保留为软掩码滤波值。
                    
 λ1

                                                 F
                                                                   最后,将设计的掩码滤波器与混合带噪语音信
                        [              ] T
                                   te T
                            te T
             其中,C   te  = (C ) (C )       是稀疏系数复合矩                  te
                            s      n                           号 X 相乘即可得到估计的语音信号的时频幅度
                                                                  ⌢
                 te
                         te
             阵,c 代表 C 的第 g 列,采用的是 LARC 算法对                     谱 S,然后结合带噪语音信号的相位信息,经过逆
                 g
             式 (21)进行求解。                                       STFT变换即可得到增强后语音信号的时域形式。
                                               ⌢ te
                 显然,基于得到的稀疏表示矩阵 C 可以计算                             相比于上述介绍的生成性字典学习算法和互
                                                     ⌢ te
                              te
             出带噪语音信号X 中对应的语音比率掩码P                      s  和    补联合字典学习算法,该算法不仅利用了信号时频
   184   185   186   187   188   189   190   191   192   193   194