Page 189 - 应用声学2019年第4期
P. 189
第 38 卷 第 4 期 叶中付等: 基于字典学习和稀疏表示的单通道语音增强算法综述 649
⌢ te
号的结构性对稀疏表示的有效性也有一定的影响, 噪声比率掩码P :
因此文献[10]中采用的权重系数并不是最优的权重 n
⌢ te ⌢ te ⌢ te ⌢ te
系数,算法性能仍有进一步提升的空间。 P s = W s C , P n = W s C . (22)
s
n
基于上述得到的比率掩码,文献 [14] 设计了两
2.3 基于联合特征字典学习的语音增强算法
种掩码滤波器以实现更好的语音增强效果。第一种
文献 [14] 在生成性字典学习算法的基础上,引
为软掩码滤波器,由理想二值掩码滤波器和维纳滤
入RM特征来挖掘带噪语音信号中语音信号和噪声
波器加权平均得到:
的时频谱幅度的比例信息。首先在训练阶段,联合
学习信号的时频谱幅度字典和比率掩码字典: SM 1 (k, t) =
⌢ te
2
tr
P s (k, t)
S D s
βJ (k, t) + (1 − β) , (23)
min
− C tr
⌢ te ⌢ te
tr
D s ,W s ,C s
λP tr s
P s (k, t) + P i (k, t)
s λW s
F
其中,J (k, t) 为理想二值掩码滤波器,计算公式
s.t. c 6 q, ∀g , (19)
tr
如下:
s,g 0
tr
tr
⌢ te
其中,P s tr = S /N 表示对于语音信号理想比率 1, P ⌢ te
掩码,D s 和W s 分别表示语音信号的时频谱幅度字 J (k, t) = s (k, t) > P n (k, t) , (24)
0, 其他.
tr
典和比率掩码字典,C 表示相应的稀疏系数矩阵,
s
tr
c tr 表示C 的第g 列,q 是对应的稀疏约束阈值,λ 2 而式 (23) 中的第二项即为维纳形式的滤波器,β 为
s
s,g
则是权衡时频谱幅度近似误差项和理想比率掩码 衡量这两个滤波器的权重值。显然,当 β = 0 时,
近似误差项。 由式 (24) 得到的即为维纳形式的滤波器,反之当
同理建立对噪声时频谱幅度字典和理想比率 β = 1时,得到的就是理想二值掩码滤波器。
掩码字典的学习目标函数: 考虑到在某个时频点往往会出现语音成分或
2 噪声成分占主导作用的情况,文献 [14] 中提出了第
tr
N D n
min
− C tr
二种滤波器:
D s ,W s ,C tr
tr n
s
λP
n λW n
⌢ te
F
P s (k, t)
1, > α,
s.t. c 6 q, ∀g , (20) ⌢ te
tr
n,g 0
P (k, t)
n
⌢ te
tr
其中,噪声的联合比率掩码字典为 P n tr = 1 − P , SM 2 (k, t) = P (k, t) 1 (25)
s
0,
s 6 ,
1 表示全 1 矩阵,其他变量与式 (19) 中的变量定义 ⌢ te
α
P (k, t)
类似。 n
SM 1 (k, t) , 其他.
在增强测试阶段,基于训练得到的复合时频
谱幅度字典 D = [D s , D n ] 和复合比率掩码字典 显然,α 用于衡量语音成分是否占主导作用,当语音
W = [W s , W n ],对带噪语音信号 X 和混合信号 比率掩码值与噪声比率掩码值之比超过 α 时,则表
te
的比率掩码P te 进行联合稀疏投影: 明语音成分占主导作用,相应的掩码滤波值设为 1,
反之则认为是噪声,相应的滤波掩码值设为 0。然
2
te
X D s D n
而,当语音比率掩码值和噪声比率掩码值所占成分
min
− C te
, (21)
C te
λW s λW n
相差不大时,则保留为软掩码滤波值。
λ1
F
最后,将设计的掩码滤波器与混合带噪语音信
[ ] T
te T
te T
其中,C te = (C ) (C ) 是稀疏系数复合矩 te
s n 号 X 相乘即可得到估计的语音信号的时频幅度
⌢
te
te
阵,c 代表 C 的第 g 列,采用的是 LARC 算法对 谱 S,然后结合带噪语音信号的相位信息,经过逆
g
式 (21)进行求解。 STFT变换即可得到增强后语音信号的时域形式。
⌢ te
显然,基于得到的稀疏表示矩阵 C 可以计算 相比于上述介绍的生成性字典学习算法和互
⌢ te
te
出带噪语音信号X 中对应的语音比率掩码P s 和 补联合字典学习算法,该算法不仅利用了信号时频