Page 188 - 应用声学2019年第4期
P. 188

648                                                                                  2019 年 7 月


             声之间的映射关系训练互补联合字典,即有                                         ⌢ est         ⌢ est   ⌢ est
                                                                        N    = (1 − α) N   + αN    .     (17)
                            
                 
 2                                    1       2
                            
    tr
                            
 X          D x1     
                这里设置权重 α 的目的在于衡量混合 -语音联
                      min   
       −       C 1
                            
    tr
                            
 S          D s      
            合稀疏表示和混合 -噪声联合稀疏表示这两路对于
                   D s ,D x1 ,C 1
                                                   F
                      s.t. ∥c 1,g ∥ 6 q, ∀ g ,          (8)    稀疏表示的有效性。有效性高,表示该路估计的信
                               1
                                                               号越准确,则相应的权重越大。文献 [10] 中分析指
                            
                 
 2
                            
     tr
                            
 X          D x2     
            出影响这种有效性的重要因素就是信号的结构性,
                      min   
       −       C 2
                            
     tr
                   D n ,D x2 ,C 2  
 N    D n     
            信号的结构性越好,相应其稀疏表示的误差就越小,
                                                   F
                                                               相应的联合稀疏表示的权重就应该越大。考虑到说
                      s.t. ∥c 2,g ∥ 6 q, ∀ g ,          (9)
                               1
                                                               话人语音的结构性相对稳定,而不同类型的噪声在
                  [        ] T
                              被称为混合-语音联合稀疏表示,
             其中, D x1 D s                                      结构性上具有较大的差异,因此在设置权重 α 时仅
             [        ] T
                                                               考虑了不同噪声的结构差异性。为了衡量这种结构
              D x2 D n   被称为混合 -噪声联合稀疏表示,C 1
             和C 2 为稀疏表示系数,c 1,g 和c 2,g 表示 C 1 和C 2 的           差异性,文献[10]提出了基于 SVD 和基尼系数的信
             第 g 列,q 是对应的稀疏约束阈值。由于对 X 和                        号结构特性度量方法,对于训练噪声样本的时频谱
                                                       tr
                                                                                                ¯ tr
                   tr
              tr
             S 、X 和N     tr  在相应字典上进行稀疏表示的时候                   幅度矩阵 N     tr  的每一列去均值得到 N ,对其进行
             约束的是相同的系数 C 1 和 C 2 ,例如对同一帧的带                     转置再进行 SVD 分解,得到奇异值并进行升序排
             噪语音信号和干净语音信号进行稀疏表示的时候,                            列:σ 1 6 σ 2 6 · · · 6 σ M ,然后基于洛伦兹曲线计算
             由于约束的稀疏表示系数 c 1 相同,则说明是采用                         基尼系数来衡量奇异值的分布稀疏度,由于基尼系
             D x1 和 D s 中的同一列原子进行稀疏表示的,这样                      数能够有效地衡量信号的结构特性,因此可用基尼
                                        tr
                                   tr
             对于存在映射关系的 X 和 S 的每一帧,都反映                          系数G作为权重系数α。
             在 D x1 和 D s 的每一列原子上,即 D x1 和 D s 在原                  最后,基于式 (16) 和式 (17) 估计出的语音信号
             子级上的映射关系就代表了带噪语音信号和干净                             和噪声,构造时频域的维纳滤波器:
                                                                                     ( ⌢ est ) 2
             语音信号之间的关系。                                                               S
                 在增强阶段,对用于测试的带噪语音信号 X                    te               M = (  ⌢ est ) 2  ( ⌢ est ) ,  (18)
                                                                                                2
             进行两路的稀疏表示:                                                          S     + N
                                  
  te         
 2            其中,式(18)除法为元素级除。然后将M 与带噪语
                       ∗
                     E = arg min X

                       1               − D x1 E 1  F
                                                               音信号 X 进行元素级相乘,对其进行滤波,得到
                               E 1                                      te
                                                                                               ⌢
                              s.t. ∥e 1,g ∥ 6 q, ∀g ,  (10)    最终估计的干净语音信号的时频谱 S,同样结合混
                                       1
                                  
  te         
 2                     te
                       ∗
                     E = arg min X     − D x2 E 2  
           合信号 X 的相位进行逆 STFT 变换,即可恢复出

                       2
                               E 2               F
                                                               估计的语音信号的时域信号。
                              s.t. ∥e 2,g ∥ 6 q, ∀g .  (11)
                                       1                           显然,该算法利用了带噪语音信号包含干净语
                 利用得到的稀疏表示系数 E 和 E ,可以估计                       音和噪声的关系,使得学习到的字典相比于生成性
                                                ∗
                                          ∗
                                          1
                                                2
             出语音信号和噪声:                                         字典学习方法得到的单个信号字典更具有区分性。
                             ⌢ est
                                        ∗
                             S 1  = D s E ,            (12)    此外,用基尼系数融合两路稀疏表示结果,利用了联
                                        1
                             ⌢ est                             合稀疏表示的互补优势,实现对语音信号更精确的
                                         ∗
                             N 2  = D n E .            (13)
                                         2
                                                               估计。文献 [11] 则在互补联合字典的基础上再加一
             基于式(4)所示的加性模型可得
                                                               级单独由干净语音和噪声训练出来的子字典,采用
                           ⌢ est        ⌢ est
                           N  1  = X te  − S 1  ,      (14)    了两级稀疏表示结构,进一步降低信号混淆情况,提
                           ⌢ est        ⌢ est                  升语音增强的效果。然而值得一提的是,基尼系数
                           S 2  = X te  − N 1  .       (15)
                                                               仅仅取决于信号的结构性,并不能反映出在不同信
             然后将两路的估计信号进行加权融合:                                 噪比情况下两路稀疏表示的性能变化,且文献 [10]
                      ⌢ est        ⌢ est   ⌢ est
                      S   = (1 − α) S 1  + αS 2  ,     (16)    中仅仅考虑了不同噪声的结构性,但实际上语音信
   183   184   185   186   187   188   189   190   191   192   193