Page 187 - 应用声学2019年第4期
P. 187
第 38 卷 第 4 期 叶中付等: 基于字典学习和稀疏表示的单通道语音增强算法综述 647
掘出在测试阶段带噪语音信号的先验知识,具有较 其 中, ∥·∥ 表 示 弗 罗 贝 尼 乌 斯 范 数 (Frobenius
F
好的灵活性和更高的实用价值。 norm),∥·∥ 表示 l 1 范数。c s,g 和 c n,g 分别表示稀
1
疏编码矩阵 C s 和C n 的第 g 列,q s 和q n 分别表示对
1 信号模型 c s,g 和 c n,g 的稀疏度约束。需要注意的是,式 (5) 和
式 (6) 并不是凸优化问题,文献 [6] 采用 LARC 算法
考虑单通道情况下的语音增强问题,带噪语音
以进行稀疏编码,采用近似 K-SVD(Singular value
信号指的是被噪声污染的语音信号,基于加性噪声
decomposition, SVD)算法 [23] 以进行字典学习。
模型,则可以得到
在增强阶段,将语音字典D s 和噪声字典D n 组
x (m) = s (m) + n (m) , (1) 合成一个复合字典 D = [D s , D n ],将带噪语音信号
te
其中,x (m)、s (m)和n (m)分别表示带噪语音信号、 X 投影到复合字典上采用 LARC 算法计算稀疏
语音信号和噪声在m时刻的采样点。 编码E s 和E n ,
对 x (m) 进 行 短 时 傅 里 叶 变 换 (Short-time
E s ( te )
Fourier transform, STFT),由于 STFT 变换的线 ← LARC D, X , µ enh , (7)
E n
性特性,将式(1)变化到如下的形式:
其中,µ enh 表示 LARC 算法在增强阶段设定的相关
X (k, t) = S (k, t) + N (k, t) , (2) 性阈值。
其中,k 表示频率点,t 表示时间帧。X (k, t)、S (k, t) 最后,将语音字典 D s 与相应的编码系数 E s 相
⌢
和 N (k, t) 分别表示带噪语音信号、语音信号和噪 乘即可估计出干净语音信号的时频谱幅度 S,再结
声在时频点(k, t)的STFT复系数,忽略时频域中的 合带噪语音信号的相位进行逆 STFT 变换,即可恢
相位信息,带噪语音信号的时频幅度谱近似为 复出干净语音信号的时域信号。
该算法通过训练字典挖掘出信号的结构特征
|X (k, t)| = |S (k, t)| + |N (k, t)| . (3)
和时频域上的稀疏性,对非平稳噪声具有更好的抑
将式(3)表示为矩阵形式为 制能力,但是当噪声的结构和语音信号存在相似之
处时,如说话人 (babble) 噪声,就会出现部分噪声
X = S + N, (4)
被语音字典所表示,反之亦然。这种源混淆的情况
其中,X ∈ R K×T 、S ∈ R K×T 和 N ∈ R K×T 分别
一旦出现,生成性字典学习算法就会在降噪的同时
表示带噪语音信号、语音信号和噪声的时频幅度谱,
引入更多的失真,使得增强后的语音信号质量下降。
K 表示频点数目,T 表示时间帧数目。
文献[6] 分析指出,LARC算法中的相关性阈值µ enh
可以用于控制降噪性能和失真度之间的权衡:当
2 基于字典学习和稀疏表示的单通道语音
增强算法 µ enh 设置得过小时,则得到的稀疏编码系数会变得
非常稀疏,降噪性能会相应地减弱;当 µ enh 设得过
2.1 基于生成性字典学习的语音增强算法 大时,估计出的语音信号会有较多的失真成分。然
针对非平稳噪声环境下语音增强问题,文献 [6] 而文献 [6]并未给出明确的设置规则,µ enh 的设置主
提出了生成性字典学习算法,该算法包含训练和增 要还是依赖于经验调整,这在一定程度上限制了这
tr
强两个阶段,首先基于干净语音样本 S 和噪声样 种算法的发展。
本N tr 训练干净语音字典D s 和噪声字典D n ,其目
2.2 基于互补联合字典学习和稀疏表示的语音增
标函数是最小化训练样本在对应字典上的稀疏表 强算法
示误差:
文献 [10] 在生成性字典学习的基础上,在训练
tr 2
min ∥S −D s C s ∥ F s.t.∥c s,g ∥ 1 6 q s , ∀g, (5) 阶段将干净语音信号样本和噪声样本基于如式 (4)
D s ,C s
所示的加性模型进行合成,得到带噪语音信号的训
tr 2
min ∥N −D n C n ∥ F s.t.∥c n,g ∥ 1 6q n , ∀g, (6)
tr
D n ,C n 练样本 X ,利用带噪语音信号和干净语音信号、噪