Page 188 - 应用声学2019年第4期
P. 188
648 2019 年 7 月
声之间的映射关系训练互补联合字典,即有 ⌢ est ⌢ est ⌢ est
N = (1 − α) N + αN . (17)
2 1 2
tr
X D x1
这里设置权重 α 的目的在于衡量混合 -语音联
min
− C 1
tr
S D s
合稀疏表示和混合 -噪声联合稀疏表示这两路对于
D s ,D x1 ,C 1
F
s.t. ∥c 1,g ∥ 6 q, ∀ g , (8) 稀疏表示的有效性。有效性高,表示该路估计的信
1
号越准确,则相应的权重越大。文献 [10] 中分析指
2
tr
X D x2
出影响这种有效性的重要因素就是信号的结构性,
min
− C 2
tr
D n ,D x2 ,C 2
N D n
信号的结构性越好,相应其稀疏表示的误差就越小,
F
相应的联合稀疏表示的权重就应该越大。考虑到说
s.t. ∥c 2,g ∥ 6 q, ∀ g , (9)
1
话人语音的结构性相对稳定,而不同类型的噪声在
[ ] T
被称为混合-语音联合稀疏表示,
其中, D x1 D s 结构性上具有较大的差异,因此在设置权重 α 时仅
[ ] T
考虑了不同噪声的结构差异性。为了衡量这种结构
D x2 D n 被称为混合 -噪声联合稀疏表示,C 1
和C 2 为稀疏表示系数,c 1,g 和c 2,g 表示 C 1 和C 2 的 差异性,文献[10]提出了基于 SVD 和基尼系数的信
第 g 列,q 是对应的稀疏约束阈值。由于对 X 和 号结构特性度量方法,对于训练噪声样本的时频谱
tr
¯ tr
tr
tr
S 、X 和N tr 在相应字典上进行稀疏表示的时候 幅度矩阵 N tr 的每一列去均值得到 N ,对其进行
约束的是相同的系数 C 1 和 C 2 ,例如对同一帧的带 转置再进行 SVD 分解,得到奇异值并进行升序排
噪语音信号和干净语音信号进行稀疏表示的时候, 列:σ 1 6 σ 2 6 · · · 6 σ M ,然后基于洛伦兹曲线计算
由于约束的稀疏表示系数 c 1 相同,则说明是采用 基尼系数来衡量奇异值的分布稀疏度,由于基尼系
D x1 和 D s 中的同一列原子进行稀疏表示的,这样 数能够有效地衡量信号的结构特性,因此可用基尼
tr
tr
对于存在映射关系的 X 和 S 的每一帧,都反映 系数G作为权重系数α。
在 D x1 和 D s 的每一列原子上,即 D x1 和 D s 在原 最后,基于式 (16) 和式 (17) 估计出的语音信号
子级上的映射关系就代表了带噪语音信号和干净 和噪声,构造时频域的维纳滤波器:
( ⌢ est ) 2
语音信号之间的关系。 S
在增强阶段,对用于测试的带噪语音信号 X te M = ( ⌢ est ) 2 ( ⌢ est ) , (18)
2
进行两路的稀疏表示: S + N
te
2 其中,式(18)除法为元素级除。然后将M 与带噪语
∗
E = arg min X
1 − D x1 E 1 F
音信号 X 进行元素级相乘,对其进行滤波,得到
E 1 te
⌢
s.t. ∥e 1,g ∥ 6 q, ∀g , (10) 最终估计的干净语音信号的时频谱 S,同样结合混
1
te
2 te
∗
E = arg min X − D x2 E 2
合信号 X 的相位进行逆 STFT 变换,即可恢复出
2
E 2 F
估计的语音信号的时域信号。
s.t. ∥e 2,g ∥ 6 q, ∀g . (11)
1 显然,该算法利用了带噪语音信号包含干净语
利用得到的稀疏表示系数 E 和 E ,可以估计 音和噪声的关系,使得学习到的字典相比于生成性
∗
∗
1
2
出语音信号和噪声: 字典学习方法得到的单个信号字典更具有区分性。
⌢ est
∗
S 1 = D s E , (12) 此外,用基尼系数融合两路稀疏表示结果,利用了联
1
⌢ est 合稀疏表示的互补优势,实现对语音信号更精确的
∗
N 2 = D n E . (13)
2
估计。文献 [11] 则在互补联合字典的基础上再加一
基于式(4)所示的加性模型可得
级单独由干净语音和噪声训练出来的子字典,采用
⌢ est ⌢ est
N 1 = X te − S 1 , (14) 了两级稀疏表示结构,进一步降低信号混淆情况,提
⌢ est ⌢ est 升语音增强的效果。然而值得一提的是,基尼系数
S 2 = X te − N 1 . (15)
仅仅取决于信号的结构性,并不能反映出在不同信
然后将两路的估计信号进行加权融合: 噪比情况下两路稀疏表示的性能变化,且文献 [10]
⌢ est ⌢ est ⌢ est
S = (1 − α) S 1 + αS 2 , (16) 中仅仅考虑了不同噪声的结构性,但实际上语音信