Page 186 - 应用声学2019年第4期
P. 186
646 2019 年 7 月
淆情况,因此在训练阶段通过构建合适的目标函数
0 引言 使各个训练样本的独特成分尽可能多地被相应的
子字典进行稀疏表示,而相关性较大的成分则尽可
在现实生产生活中,噪声的污染无处不在,语
能多地被缓冲子字典表示,然后逐层分离相似成分,
音信号的质量和可懂度也因此严重下降,影响人们
降低混淆成分。文献 [13] 则是依据带噪语音信号在
的主观听觉感受,语音增强技术就是解决这类问题
语音字典和噪声字典上的稀疏表示系数大小挑选
的主要方法之一。然而,传统语音增强算法 [1−4] 大
出贡献较大的语音信号原子,移除贡献较大的噪声
多局限于抑制平稳噪声,在非平稳环境下增强语音
原子,提升降噪性能。文献 [14] 则定义了时频谱幅
的能力有限。近年来兴起的字典学习和稀疏表示
度的比率掩码 (Ratio mask, RM)特征,联合训练信
理论由于能够学习到训练样本数据的分布特征和
号的时频谱幅度字典和掩码字典,从而估计出带噪
规律,在解决非平稳噪声抑制问题方面取得了丰
语音信号中的语音比率掩码和噪声比率掩码,然后
硕的成果,其中发展比较迅速的两类算法主要包
括基于生成性字典学习的算法以及非负矩阵分解 构建不同的掩码滤波器以实现对语音信号的增强。
(Non-negative matrix factorization, NMF)类算法。 NMF 算法本质上是一种降维的工具,其基本
文献 [5–6] 提出的生成性字典学习算法是第一 思想是将一个矩阵近似分解为两个非负矩阵的乘
类算法中的经典算法,首先利用样本数据训练出干 积 [15] ,在图像表示、音乐标注、信源分离和语音增
净语音字典和噪声字典,然后将带噪语音信号投 强等方面都有着广泛的应用。对于经典的有监督
影到由语音字典和噪声字典组合而成的复合字典 NMF 类算法 [16] ,语音信号和噪声的字典 (基向量)
上计算相应的稀疏表示系数,从而估计出语音信 通常是由训练样本数据学习得到,然后在增强阶段
号。为了更有效地计算稀疏表示系数,该文献将最 固定语音信号和噪声的字典不变,迭代更新相应的
小角度回归 (Least angle regression, LARS) [7] 算法 稀疏表示系数 (激活系数矩阵)。为了更好地依据数
拓展为基于相干性准则的最小角回归 (Least angle 据的特性来进行字典学习,研究者们往往在 NMF
regression with a coherence criterion, LARC)算法, 的代价函数中会引入一些先验知识作为正则化项
在迭代过程中将信号残差向量和当前选择的字典 来约束基矩阵和系数矩阵的更新,例如文献 [17] 中
原子之间的相关性大小作为算法终止的条件,避免 引入隐马尔可夫模型,文献 [18] 则挖掘了不同的说
了极不相关的信号成分在字典上的无意义投影,提 话人具有不同的调制率。在文献 [19] 中,语音信号
升了算法的效率。然而,这种方法训练出来的语音 和噪声的时频谱被认为是一个高斯混合模型,因此
字典和噪声字典之间的区分性不够好,会导致一定 约束字典和系数矩阵的乘积为高斯混合模型并将
的源混淆,即部分与噪声相关的语音成分会被噪声 其对数似然函数作为代价函数的正则化项。对于
字典表示,反之亦然。为了增强语音字典和噪声字 测试阶段出现了训练样本中不包含的噪声情况,文
典的区分性和差异性,学者们往往在字典学习训练 献 [20] 提出了具有环境自适应性的 NMF 方法。首
阶段添加区分约束项来训练字典 [8−9] 。文献 [10] 则 先用有监督 NMF 算法 [16] 从带噪语音信号中估计
考虑了带噪语音信号与语音信号、噪声之间的映射 出语音信号和噪声的时频谱幅度值,接着用后验信
关系,提出了基于互补联合字典学习和稀疏表示的 噪比计算局部稀疏度以衡量每个频点处语音和噪
有监督语音增强算法,联合训练混合 -语音字典和 声的分离程度,再将局部稀疏性与最小均方误差滤
混合 -噪声字典,获得了较好的增强效果。在此基础 波器相结合进一步估计噪声。然后,通过带噪语音
上,文献 [11] 提出了两级联合稀疏表示和字典学习 信号在语音信号字典和噪声字典上的表示系数大
的语音增强算法,将由联合字典估计出的语音信号 小来判断对应的噪声基向量是否需要更新,若需要
和噪声投影到由语音子字典和噪声子字典组成的 更新则用估计的噪声对噪声字典进行更新,从而达
复合字典上,进一步进行稀疏表示,实现语音增强。 到了更好的降噪效果。文献 [21] 则更加全面地考虑
此外,文献 [12] 分析出不同声源的语音在分帧之后 了对语音字典和噪声字典的在线更新,将基于统计
的相关性增加,在字典学习过程中会造成一定的混 模型的算法 [22] 与有监督的 NMF 算法相结合来挖