Page 191 - 应用声学2019年第4期
P. 191

第 38 卷 第 4 期         叶中付等: 基于字典学习和稀疏表示的单通道语音增强算法综述                                          651


                                                               逆的,但没有利用到人声在生理特性或听觉感知上
             3 结论                                              对于语音和噪声的差异性,如何利用这些差异提取

                                                               更有区分性的特征并建立该特征域与线性可逆特
                 本文主要介绍了基于字典学习和稀疏表示的
                                                               征域之间的映射关系是一个值得思考的问题。(3)
             单通道语音增强算法,首先介绍了基于生成性字典
                                                               目前基于字典学习和稀疏表示的增强方法大多是
             学习的语音增强算法,该算法利用信号的时频谱幅
                                                               对信号的时频域幅度谱进行处理,然后用带噪语音
             度学习语音字典和噪声字典,相比于传统算法在抑
                                                               信号的相位作为估计语音信号的相位,如何很好地
             制非平稳噪声方面有一定的优越性。随后阐述的基
                                                               利用相位信息,实现对相位信息和幅度谱进行联合
             于互补联合字典学习和稀疏表示的增强算法和基
                                                               优化构造相应的字典是一个亟待突破的方向。
             于联合特征字典学习的增强算法均是由生成性字
             典学习发展而来,通过挖掘带噪语音信号和语音信
             号、噪声之间的映射关系和引入比率掩码字典来进                                           参 考 文        献
             一步提升语音增强的性能。最后介绍的有监督类
                                                                 [1] Kamath S, Loizou P. A multi-band spectral subtrac-
             NMF 算法则考虑了在训练数据和测试数据不匹配                               tion method for enhancing speech corrupted by colored
             情况下进行语音增强,通过将 NMF 算法与基于统                              noise[C]. ICASSP, Citeseer, 2002.
                                                                 [2] Ephraim Y, Malah D. Speech enhancement using a min-
             计模型的传统增强方法相结合来进一步挖掘测试
                                                                   imum mean-square error log-spectral amplitude estima-
             数据的特性,对已有的语音字典和噪声字典进行更                                tor[J]. IEEE Transactions on Acoustics, Speech, and Sig-
             新,从而恢复出干净语音信号,更具有灵活性和应用                               nal Processing, 1985, 33(2): 443–445.
                                                                 [3] Hu Y, Loizou P C. A generalized subspace approach for
             前景。值得一提的是,文中介绍的前三种方法均采
                                                                   enhancing speech corrupted by colored noise[J]. IEEE
             用LARC算法进行稀疏编码,由于 LARC算法是基                             Transactions on Speech and Audio Processing, 2003,
             于相关性来判断迭代更新过程是否应该终止,因此                                11(4): 334–341.
                                                                 [4] Sun J, Zhang J, Small M. Extension of the local subspace
             当没有噪声训练样本用于初始化时,随机初始化得                                method to enhancement of speech with colored noise[J].
             到的噪声字典并不一定与带噪语音信号中的噪声                                 Signal Processing, 2008, 88(7): 1881–1888.
             成分有较强的相关性,LARC 算法很可能放弃对噪                            [5] Sigg C D, Dikk T, Buhmann J M. Speech enhancement
                                                                   with sparse coding in learned dictionaries[C]. ICASSP,
             声成分的稀疏表示,不能对噪声字典进行有效的更                                Dallas, TX, 2010.
             新,这也就限制了算法在无监督或者半监督情况下                              [6] Sigg C D, Dikk T, Buhmann J M. Speech enhancement us-
                                                                   ing generative dictionary learning[J]. IEEE Transactions
             的应用。而基于 NMF 的算法由于对字典初始化的
                                                                   on Audio, Speech and Language Processing, 2012, 20(6):
             要求并不苛刻 (可由随机数生成),因此具有较高的                              1698–1712.
             灵活性和较广的适用范围。然而,由于NMF类算法                             [7] Efron B, Hastie T, Johnstone I, et al. Least angle regres-
                                                                   sion[J]. The Annals of Statistics, 2004, 32: 407–499.
             对字典和激活系数矩阵均有非负约束,在降噪方面
                                                                 [8] Bao G Z, Xu Y F, Ye Z F. Learning a discriminative dictio-
             则稍逊色于基于生成性字典学习一类的算法。                                  nary for single-channel speech separation[J]. IEEE/ACM
                 基于字典学习和稀疏表示的单通道语音增强                               Transactions on Audio, Speech and Language Processing,
                                                                   2014, 22(7): 1130–1138.
             算法在近十多年的时间里取得了飞速的发展并已                               [9] Nejati M, Samavi S, Soroushmehr S M R, et al. Coher-
             获得了丰硕的成果,但依然存在一些问题值得进一                                ence regularized dictionary learning[C]. ICASSP, Shang-
             步深入研究:(1)建立不依赖于说话人特性的语音字                              hai, 2016.
                                                                [10] Luo Y, Bao G Z, Xu Y F, et al.  Supervised monau-
             典和稀疏表示方法。上述提到的有监督类学习算法                                ral speech enhancement using complementary joint sparse
             均是针对特定说话人的语音学习相应的字典,在实                                representations[J]. IEEE Signal Processing Letters, 2016,
                                                                   23(2): 237–241.
             际应用中会受到一定限制,研究如何强化各说话人
                                                                [11] Fu J F, Zhang L, Ye Z F. Supervised monaural speech
             语音数据的共性部分建立具有普适性的语音字典                                 enhancement using two-level complementary joint sparse
             将会有更大的应用价值。(2) 寻找对语音信号和噪                              representations[J]. Applied Acoustics, 2018, 132: 1–7.
                                                                [12] Xu Y F, Bao G Z, Xu X, et al. Single-channel speech sep-
             声更具有区分性的特征域。上述算法都是在信号的
                                                                   aration using sequential discriminative dictionary learn-
             时频域进行操作的,虽然该特征域的变换是线性可                                ing[J]. Signal Processing, 2015, 106: 34–140.
   186   187   188   189   190   191   192   193   194   195   196