Page 187 - 应用声学2019年第4期
P. 187

第 38 卷 第 4 期         叶中付等: 基于字典学习和稀疏表示的单通道语音增强算法综述                                          647


             掘出在测试阶段带噪语音信号的先验知识,具有较                            其 中, ∥·∥ 表 示 弗 罗 贝 尼 乌 斯 范 数 (Frobenius
                                                                         F
             好的灵活性和更高的实用价值。                                    norm),∥·∥ 表示 l 1 范数。c s,g 和 c n,g 分别表示稀
                                                                         1
                                                               疏编码矩阵 C s 和C n 的第 g 列,q s 和q n 分别表示对
             1 信号模型                                            c s,g 和 c n,g 的稀疏度约束。需要注意的是,式 (5) 和

                                                               式 (6) 并不是凸优化问题,文献 [6] 采用 LARC 算法
                 考虑单通道情况下的语音增强问题,带噪语音
                                                               以进行稀疏编码,采用近似 K-SVD(Singular value
             信号指的是被噪声污染的语音信号,基于加性噪声
                                                               decomposition, SVD)算法   [23]  以进行字典学习。
             模型,则可以得到
                                                                   在增强阶段,将语音字典D s 和噪声字典D n 组
                         x (m) = s (m) + n (m) ,        (1)    合成一个复合字典 D = [D s , D n ],将带噪语音信号
                                                                 te
             其中,x (m)、s (m)和n (m)分别表示带噪语音信号、                   X 投影到复合字典上采用 LARC 算法计算稀疏
             语音信号和噪声在m时刻的采样点。                                  编码E s 和E n ,
                                                                           
                 对 x (m) 进 行 短 时 傅 里 叶 变 换 (Short-time
                                                                         E s           (     te    )
             Fourier transform, STFT),由于 STFT 变换的线                           ← LARC D, X , µ enh ,      (7)
                                                                         E n
             性特性,将式(1)变化到如下的形式:
                                                               其中,µ enh 表示 LARC 算法在增强阶段设定的相关
                       X (k, t) = S (k, t) + N (k, t) ,  (2)   性阈值。

             其中,k 表示频率点,t 表示时间帧。X (k, t)、S (k, t)                  最后,将语音字典 D s 与相应的编码系数 E s 相
                                                                                                      ⌢
             和 N (k, t) 分别表示带噪语音信号、语音信号和噪                      乘即可估计出干净语音信号的时频谱幅度 S,再结
             声在时频点(k, t)的STFT复系数,忽略时频域中的                       合带噪语音信号的相位进行逆 STFT 变换,即可恢
             相位信息,带噪语音信号的时频幅度谱近似为                              复出干净语音信号的时域信号。
                                                                   该算法通过训练字典挖掘出信号的结构特征
                     |X (k, t)| = |S (k, t)| + |N (k, t)| .  (3)
                                                               和时频域上的稀疏性,对非平稳噪声具有更好的抑
             将式(3)表示为矩阵形式为                                     制能力,但是当噪声的结构和语音信号存在相似之
                                                               处时,如说话人 (babble) 噪声,就会出现部分噪声
                              X = S + N,                (4)
                                                               被语音字典所表示,反之亦然。这种源混淆的情况
             其中,X ∈ R    K×T 、S ∈ R K×T  和 N ∈ R  K×T  分别
                                                               一旦出现,生成性字典学习算法就会在降噪的同时
             表示带噪语音信号、语音信号和噪声的时频幅度谱,
                                                               引入更多的失真,使得增强后的语音信号质量下降。
             K 表示频点数目,T 表示时间帧数目。
                                                               文献[6] 分析指出,LARC算法中的相关性阈值µ enh
                                                               可以用于控制降噪性能和失真度之间的权衡:当
             2 基于字典学习和稀疏表示的单通道语音
                增强算法                                           µ enh 设置得过小时,则得到的稀疏编码系数会变得
                                                               非常稀疏,降噪性能会相应地减弱;当 µ enh 设得过
             2.1 基于生成性字典学习的语音增强算法                              大时,估计出的语音信号会有较多的失真成分。然
                 针对非平稳噪声环境下语音增强问题,文献 [6]                       而文献 [6]并未给出明确的设置规则,µ enh 的设置主
             提出了生成性字典学习算法,该算法包含训练和增                            要还是依赖于经验调整,这在一定程度上限制了这
                                                tr
             强两个阶段,首先基于干净语音样本 S 和噪声样                           种算法的发展。
             本N  tr  训练干净语音字典D s 和噪声字典D n ,其目
                                                               2.2  基于互补联合字典学习和稀疏表示的语音增
             标函数是最小化训练样本在对应字典上的稀疏表                                  强算法
             示误差:
                                                                   文献 [10] 在生成性字典学习的基础上,在训练
                       tr       2
                min ∥S −D s C s ∥ F  s.t.∥c s,g ∥ 1 6 q s , ∀g, (5)  阶段将干净语音信号样本和噪声样本基于如式 (4)
               D s ,C s
                                                               所示的加性模型进行合成,得到带噪语音信号的训
                        tr        2
                min ∥N −D n C n ∥ F  s.t.∥c n,g ∥ 1 6q n , ∀g, (6)
                                                                        tr
               D n ,C n                                        练样本 X ,利用带噪语音信号和干净语音信号、噪
   182   183   184   185   186   187   188   189   190   191   192