Page 190 - 应用声学2019年第4期
P. 190

650                                                                                  2019 年 7 月


             谱幅度的信息,也挖掘了带噪语音信号中语音信号                            语音字典和噪声字典,可基于乘法更新规则得到其
             和噪声的时频谱幅度的比例信息,基于多任务联合                            迭代更新公式,r s 表示语音字典的原子数,r n 表示噪
                                                                                     [         ]
             处理的思想联合学习了信号的时频谱幅度字典和                             声字典的原子数。W t = W W             n  ∈ R K×(r s +r n )
                                                                                         s
                                                                                         t   t
             比率掩码字典,提升了语音增强的性能,但同时也要                           表示在第 t 帧基于训练字典更新后得到的语音字典
             求对 λ、β 和 α 等重要参数进行合理的设置,这就需                       和噪声字典,由训练学习得到的字典 W s 和 W n 作
             要大量的实验调整和经验,降低了该算法的适应性                            为初始化矩阵,具体更新公式如下:
             和灵活性。                                                   s      s                   s      s
                                                                                f s
                                                                   W t+1  = λ ⊗ W + (1 K×r s  − λ ) ⊗ W ,
                                                                                                t
                                                                            t
                                                                                  t
                                                                                                      t
             2.4 基于非负矩阵分解的语音增强算法                                       s
                                                                       t
                                                                     λ = α s (t) p (t) 1 r s ,           (29)
                 NMF 算 法 的 基 本 思 想 是 将 一 个 非 负 矩 阵                   n      n                    n      n
                                                                                f n
                                                                   W t+1  = λ ⊗ W + (1 K×r n  − λ ) ⊗ W ,
                                                                                                       t
                                                                            t
                                                                                                 t
                                                                                  t
             Y ∈ R K×T  分解成非负字典W 和激活系数矩阵H
                                                                       n               ,                 (30)
                                                                       t
             的乘积,常用的目标代价函数形式有 Itakura–Saito                          λ = α n (t) p (t) 1 r n
             距离、广义 Kullback-Leibler 散度和欧式距离            [16] 。  其中,p (t) ∈ R   K×1  代表第 t 帧的语音存在概率,
             当采用广义 Kullback-Leibler 散度时,基于乘法更                  1 K×r s  ∈ R K×r s  、1 K×r n  ∈ R K×r n  、1 r s  ∈ R 1×r s  和
             新规则   [24]  可以得到对W 和H 的迭代更新公式:                    1 r n  ∈ R 1×r n  表示全 1 矩阵,α s (t) 和 α n (t) 表示最
                                    T
                                 W (Y /W H)                    大更新比率,可以通过计算重构误差获得:
                       H ← H ⊗        T        ,       (26)
                                    W 1 K×T                                                max
                                                                   α s (t) = max [sigm (˜e (t)) α s  , 0.01] ,  (31)
                                  (Y /W H) H  T
                       W ← W ⊗              T   ,      (27)                                 max          (32)
                                    1 K×T H                        α n (t) = max [sigm (˜e (t)) α n  , 0.01] ,
             其中,符号 ⊗ 表示元素级相乘,·/· 表示元素级除,                                                      max    max  为设
                                                               其中,sigm (·) 代表 sigmoid 函数,α
                                                                                              s  和 α n
             1 K×T ∈ R K×T  表示全 1 矩阵。当目标代价函数值                  置的更新比率的最大上限,˜e (t) 是由归一化的重构
             趋于收敛或小于设定的阈值时,对 W 和 H 的更新                         误差e (t)平滑得到,即
             停止。
                                                                       ˜ e (t) = τ e ˜e (t − 1) + (1 − τ e ) ˜e (t) ,  (33)
                 在语音增强领域中,经典的有监督类 NMF 算
             法通常作用于信号的时频谱幅度,首先在训练阶段                            显然,0 6 τ e 6 1 为平滑因子,e (t) 可由式 (34) 计算
             利用训练样本学习到语音字典W s 和噪声字典W n ,                       得到:
             然后在测试阶段计算带噪语音信号在字典上的表                                        ∑ K   (  te             ) 2
                                                                                 x (k) − (W H)  k,t
                                                                                   t
             示系数 H s 和 H n ,估计出语音信号和噪声,然后构                         e (t) =   k=1                     ,   (34)
                                                                               ∑ K (    te   ) 2
             造维纳滤波器与带噪语音信号进行元素级相乘,恢                                               k=1  x (k)
                                                                                        t
             复出干净语音信号。                                         其中,W = [W s W n ] 表示训练阶段得到的语音字
                 针对训练数据和测试数据出现不匹配的情况,                          典和噪声字典,H 表示训练阶段对应语音信号和噪
             文献 [21]在增强阶段首先采用基于统计模型的传统                         声的稀疏表示系数,(W H)             表示 W 和 H 乘积的
                                                                                        k,t
             增强方法     [22]  对带噪语音信号进行预增强,利用预                   第(k, t)个元素。
             增强信号和原始带噪语音信号学习新的语音字典                                 不难看出,该算法实现了对语音字典和噪声字
             和噪声字典:                                            典的在线更新,在非平稳环境下能够捕捉到更多的
                           (         )   
        
 2          信号特征,且能够在训练数据与测试数据不匹配的
                            ˜ f ˜
                min   D KL V t , W t H t +δ 
W t −W t
 , (28)


                                                f
                W t
              ˜ V t , f , ˜ H t                                情况下实现较好的语音增强,具有较好的灵活性和
             其中,δ 为设置的权重,D KL (·) 表示采用广义                       实用价值。但这也同时要求基于统计模型的传统增
                                           [       ]
                                       ˜      te  te   te
             Kullback-Leibler散度形式。V t = x       ˜ x  ,x t  ∈   强方法在进行预处理时不能产生较多的失真成分,
                                              t   t
                                                                                te
             R K×1  代表原始带噪语音信号在时频域上的第t 帧,                      如果预增强后的 ˜ x 含有较多的失真,对语音字典
                                                                                t
             ˜ x te  ∈ R K×1  代表预增强信号在时频域上的第 t 帧,              的在线更新就可能会造成一定负面影响,甚至会降
              t
                   [         ]
                    f s f n
             W t =  W W       ∈ R K×(r s +r n )  表示需要学习的       低语音增强的效果。
             f
                      t    t
   185   186   187   188   189   190   191   192   193   194   195