Page 191 - 应用声学2019年第4期

P. 191

第 38 卷第 4 期叶中付等：基于字典学习和稀疏表示的单通道语音增强算法综述 651

逆的，但没有利用到人声在生理特性或听觉感知上
3 结论对于语音和噪声的差异性，如何利用这些差异提取

更有区分性的特征并建立该特征域与线性可逆特
本文主要介绍了基于字典学习和稀疏表示的
征域之间的映射关系是一个值得思考的问题。(3)
单通道语音增强算法，首先介绍了基于生成性字典
目前基于字典学习和稀疏表示的增强方法大多是
学习的语音增强算法，该算法利用信号的时频谱幅
对信号的时频域幅度谱进行处理，然后用带噪语音
度学习语音字典和噪声字典，相比于传统算法在抑
信号的相位作为估计语音信号的相位，如何很好地
制非平稳噪声方面有一定的优越性。随后阐述的基
利用相位信息，实现对相位信息和幅度谱进行联合
于互补联合字典学习和稀疏表示的增强算法和基
优化构造相应的字典是一个亟待突破的方向。
于联合特征字典学习的增强算法均是由生成性字
典学习发展而来，通过挖掘带噪语音信号和语音信
号、噪声之间的映射关系和引入比率掩码字典来进参考文献
一步提升语音增强的性能。最后介绍的有监督类
[1] Kamath S, Loizou P. A multi-band spectral subtrac-
NMF 算法则考虑了在训练数据和测试数据不匹配 tion method for enhancing speech corrupted by colored
情况下进行语音增强，通过将 NMF 算法与基于统 noise[C]. ICASSP, Citeseer, 2002.
[2] Ephraim Y, Malah D. Speech enhancement using a min-
计模型的传统增强方法相结合来进一步挖掘测试
imum mean-square error log-spectral amplitude estima-
数据的特性，对已有的语音字典和噪声字典进行更 tor[J]. IEEE Transactions on Acoustics, Speech, and Sig-
新，从而恢复出干净语音信号，更具有灵活性和应用 nal Processing, 1985, 33(2): 443–445.
[3] Hu Y, Loizou P C. A generalized subspace approach for
前景。值得一提的是，文中介绍的前三种方法均采
enhancing speech corrupted by colored noise[J]. IEEE
用LARC算法进行稀疏编码，由于 LARC算法是基 Transactions on Speech and Audio Processing, 2003,
于相关性来判断迭代更新过程是否应该终止，因此 11(4): 334–341.
[4] Sun J, Zhang J, Small M. Extension of the local subspace
当没有噪声训练样本用于初始化时，随机初始化得 method to enhancement of speech with colored noise[J].
到的噪声字典并不一定与带噪语音信号中的噪声 Signal Processing, 2008, 88(7): 1881–1888.
成分有较强的相关性，LARC 算法很可能放弃对噪 [5] Sigg C D, Dikk T, Buhmann J M. Speech enhancement
with sparse coding in learned dictionaries[C]. ICASSP,
声成分的稀疏表示，不能对噪声字典进行有效的更 Dallas, TX, 2010.
新，这也就限制了算法在无监督或者半监督情况下 [6] Sigg C D, Dikk T, Buhmann J M. Speech enhancement us-
ing generative dictionary learning[J]. IEEE Transactions
的应用。而基于 NMF 的算法由于对字典初始化的
on Audio, Speech and Language Processing, 2012, 20(6):
要求并不苛刻 (可由随机数生成)，因此具有较高的 1698–1712.
灵活性和较广的适用范围。然而，由于NMF类算法 [7] Efron B, Hastie T, Johnstone I, et al. Least angle regres-
sion[J]. The Annals of Statistics, 2004, 32: 407–499.
对字典和激活系数矩阵均有非负约束，在降噪方面
[8] Bao G Z, Xu Y F, Ye Z F. Learning a discriminative dictio-
则稍逊色于基于生成性字典学习一类的算法。 nary for single-channel speech separation[J]. IEEE/ACM
基于字典学习和稀疏表示的单通道语音增强 Transactions on Audio, Speech and Language Processing,
2014, 22(7): 1130–1138.
算法在近十多年的时间里取得了飞速的发展并已 [9] Nejati M, Samavi S, Soroushmehr S M R, et al. Coher-
获得了丰硕的成果，但依然存在一些问题值得进一 ence regularized dictionary learning[C]. ICASSP, Shang-
步深入研究：(1)建立不依赖于说话人特性的语音字 hai, 2016.
[10] Luo Y, Bao G Z, Xu Y F, et al. Supervised monau-
典和稀疏表示方法。上述提到的有监督类学习算法 ral speech enhancement using complementary joint sparse
均是针对特定说话人的语音学习相应的字典，在实 representations[J]. IEEE Signal Processing Letters, 2016,
23(2): 237–241.
际应用中会受到一定限制，研究如何强化各说话人
[11] Fu J F, Zhang L, Ye Z F. Supervised monaural speech
语音数据的共性部分建立具有普适性的语音字典 enhancement using two-level complementary joint sparse
将会有更大的应用价值。(2) 寻找对语音信号和噪 representations[J]. Applied Acoustics, 2018, 132: 1–7.
[12] Xu Y F, Bao G Z, Xu X, et al. Single-channel speech sep-
声更具有区分性的特征域。上述算法都是在信号的
aration using sequential discriminative dictionary learn-
时频域进行操作的，虽然该特征域的变换是线性可 ing[J]. Signal Processing, 2015, 106: 34–140.

186 187 188 189 190 191 192 193 194 195 196