Page 190 - 应用声学2019年第4期
P. 190
650 2019 年 7 月
谱幅度的信息,也挖掘了带噪语音信号中语音信号 语音字典和噪声字典,可基于乘法更新规则得到其
和噪声的时频谱幅度的比例信息,基于多任务联合 迭代更新公式,r s 表示语音字典的原子数,r n 表示噪
[ ]
处理的思想联合学习了信号的时频谱幅度字典和 声字典的原子数。W t = W W n ∈ R K×(r s +r n )
s
t t
比率掩码字典,提升了语音增强的性能,但同时也要 表示在第 t 帧基于训练字典更新后得到的语音字典
求对 λ、β 和 α 等重要参数进行合理的设置,这就需 和噪声字典,由训练学习得到的字典 W s 和 W n 作
要大量的实验调整和经验,降低了该算法的适应性 为初始化矩阵,具体更新公式如下:
和灵活性。 s s s s
f s
W t+1 = λ ⊗ W + (1 K×r s − λ ) ⊗ W ,
t
t
t
t
2.4 基于非负矩阵分解的语音增强算法 s
t
λ = α s (t) p (t) 1 r s , (29)
NMF 算 法 的 基 本 思 想 是 将 一 个 非 负 矩 阵 n n n n
f n
W t+1 = λ ⊗ W + (1 K×r n − λ ) ⊗ W ,
t
t
t
t
Y ∈ R K×T 分解成非负字典W 和激活系数矩阵H
n , (30)
t
的乘积,常用的目标代价函数形式有 Itakura–Saito λ = α n (t) p (t) 1 r n
距离、广义 Kullback-Leibler 散度和欧式距离 [16] 。 其中,p (t) ∈ R K×1 代表第 t 帧的语音存在概率,
当采用广义 Kullback-Leibler 散度时,基于乘法更 1 K×r s ∈ R K×r s 、1 K×r n ∈ R K×r n 、1 r s ∈ R 1×r s 和
新规则 [24] 可以得到对W 和H 的迭代更新公式: 1 r n ∈ R 1×r n 表示全 1 矩阵,α s (t) 和 α n (t) 表示最
T
W (Y /W H) 大更新比率,可以通过计算重构误差获得:
H ← H ⊗ T , (26)
W 1 K×T max
α s (t) = max [sigm (˜e (t)) α s , 0.01] , (31)
(Y /W H) H T
W ← W ⊗ T , (27) max (32)
1 K×T H α n (t) = max [sigm (˜e (t)) α n , 0.01] ,
其中,符号 ⊗ 表示元素级相乘,·/· 表示元素级除, max max 为设
其中,sigm (·) 代表 sigmoid 函数,α
s 和 α n
1 K×T ∈ R K×T 表示全 1 矩阵。当目标代价函数值 置的更新比率的最大上限,˜e (t) 是由归一化的重构
趋于收敛或小于设定的阈值时,对 W 和 H 的更新 误差e (t)平滑得到,即
停止。
˜ e (t) = τ e ˜e (t − 1) + (1 − τ e ) ˜e (t) , (33)
在语音增强领域中,经典的有监督类 NMF 算
法通常作用于信号的时频谱幅度,首先在训练阶段 显然,0 6 τ e 6 1 为平滑因子,e (t) 可由式 (34) 计算
利用训练样本学习到语音字典W s 和噪声字典W n , 得到:
然后在测试阶段计算带噪语音信号在字典上的表 ∑ K ( te ) 2
x (k) − (W H) k,t
t
示系数 H s 和 H n ,估计出语音信号和噪声,然后构 e (t) = k=1 , (34)
∑ K ( te ) 2
造维纳滤波器与带噪语音信号进行元素级相乘,恢 k=1 x (k)
t
复出干净语音信号。 其中,W = [W s W n ] 表示训练阶段得到的语音字
针对训练数据和测试数据出现不匹配的情况, 典和噪声字典,H 表示训练阶段对应语音信号和噪
文献 [21]在增强阶段首先采用基于统计模型的传统 声的稀疏表示系数,(W H) 表示 W 和 H 乘积的
k,t
增强方法 [22] 对带噪语音信号进行预增强,利用预 第(k, t)个元素。
增强信号和原始带噪语音信号学习新的语音字典 不难看出,该算法实现了对语音字典和噪声字
和噪声字典: 典的在线更新,在非平稳环境下能够捕捉到更多的
( )
2 信号特征,且能够在训练数据与测试数据不匹配的
˜ f ˜
min D KL V t , W t H t +δ
W t −W t
, (28)
f
W t
˜ V t , f , ˜ H t 情况下实现较好的语音增强,具有较好的灵活性和
其中,δ 为设置的权重,D KL (·) 表示采用广义 实用价值。但这也同时要求基于统计模型的传统增
[ ]
˜ te te te
Kullback-Leibler散度形式。V t = x ˜ x ,x t ∈ 强方法在进行预处理时不能产生较多的失真成分,
t t
te
R K×1 代表原始带噪语音信号在时频域上的第t 帧, 如果预增强后的 ˜ x 含有较多的失真,对语音字典
t
˜ x te ∈ R K×1 代表预增强信号在时频域上的第 t 帧, 的在线更新就可能会造成一定负面影响,甚至会降
t
[ ]
f s f n
W t = W W ∈ R K×(r s +r n ) 表示需要学习的 低语音增强的效果。
f
t t