Page 7 - 《应该声学》2022年第2期
P. 7

第 41 卷 第 2 期        康坊等: 子带 t 分布的快速独立向量分析在语声盲源分离中的应用                                        175


                 为了更快更稳定地优化分离矩阵,AuxIVA 算                        y ij ← (W i − v i,n w H  )x ij = y ij − v i,n y ij,n . (16)
                                                                                  i,n
                                         I
             法构建辅助目标函数 Q({W i }          i=1 ) 代替直接求解          因此分离信号的估计不需要计算分离矩阵 W i ,与
                    I
             L({W i } i=1 ),                                   迭代过程式 (9) ∼ (12) 不同,Fast AuxIVA 的迭代
                     I             I
              L({W i } i=1 ) 6 Q({W i } i=1 ) =                过程式(15) ∼ (16)不需要矩阵求逆操作。
                   ∑                   ∑    H
              − 2J     log | det(W i )| + J  w i,n V i,n w i,n , (8)
                    i                  i,n                     2 基于子带t分布的快速AuxIVA算法
             其 中, V i,n 是 辅 助 变 量。 通 过 不 断 最 小 化
                                                               2.1  算法原理
                    I
             Q({W i }  ) 和更新辅助变量 V i,n 来逼近原函数的
                    i=1                                            为了增强声源模型相邻频点间的依赖性来避
             最优解,因此得到以下迭代准则:
                                                               免分离过程中出现的顺序模糊性问题,本文将全频
                                     √
                                       ∑
                                                2
                      r j,n = ||y j,n || 2 =  |y ij,n | ,  (9)  带划分为 C 个子带,并假设声源在各子带内独立服
                                         i                     从如下分布:
                            1  ∑            H                                  C
                      V i,n =     φ(r j,n )x ij x ,    (10)                   ∏
                                            ij
                            J                                        p(y j,n ) =  p(Y cj,n )
                               j
                                                                              c=1
                      w i,n ← (W i V i,n ) −1 e n ,    (11)                                      2+κ
                                                                               (             2  ) −
                                                                      ∏    1        2 ||Y cj,n ||  2
                                  w i,n                            =            1 +          2       ,   (17)
                      w i,n ← √             ,          (12)              πσ cj,n    κ   σ 2
                               w H  V  −1                              c                 cj,n
                                 i,n  i,n  w i,n
                                                                                      ,Ω c 表示第 c 个子带内的
             其中,e n 是第 n 个元素为 1 的单位向量。上述迭代                     其中,Y cj,n = {y ij,n } i∈Ω c
                                                               频点集合,κ 是自由度参数,κ 越大,分布越接近于
             准则适用于多种声源模型,但需要在每次迭代时计
                                                               高斯分布,σ cj,n 是第 c 个子带的时变尺度参数。由
             算N 个辅助变量矩阵和N 个矩阵的逆。此外,当矩
                                                               于语声信号的时变特性,在不同时间帧上引入不同
             阵病态时,求逆操作在迭代过程中可能导致数值不
                                                               的时变参数 σ cj,n 更有利于表示声源的能量变化情
             稳定。
                                                               况,且同一子带内的所有频点共用相同的 σ cj,n ,建
                 为了避免矩阵求逆,降低计算复杂度,文献 [11]
                                                               立了频率间的依赖性。前C − 1 个子带采用无重叠
             提出一种秩1更新的方式来优化W i ,
                                                               划分方式,保证子带内的频点拥有一致的高阶依赖
                          W i ← W i − v i,n w H  ,     (13)    性。但无重叠的设置会让子带间缺少依赖性而导致
                                           i,n
                                                               带间的顺序不确定问题,因此在第 C 个子带中包含
             其中,v i,n = (v i,n1 , v i,n1 , · · · , v i,nN ) 是待估计的优
                                            T
                                                               了所有频点,与其他子带均有重叠,增加子带间的
             化向量。将式(13)代入辅助函数Q得到
                                                               依赖性,从而避免了子带间顺序校正的后处理操作。
                     Q(v i,n )
                                                               将式(17)中的声源模型代入目标函数式(6)可得
                           ∑
                   = − 2J     log | det(W i − v i,n w H  )|
                                                i,n                      I
                                                                  L({W i } i=1 )
                            i
                                                                       ∑               ∑
                          ∑                   H                                                  2
                      + J    (w i,m − v ∗  w i,n )             = − 2J     log| det W i | +  log(πσ cj,n ) + const.
                                     i,nm
                                                                        i              cj,n
                          i,m
                                                                                (              2  )
                                                                    2 + κ  ∑          2 ||Y cj,n ||
                      · V i,m (w i,m − v ∗  w i,n ).   (14)                                              (18)
                                    i,nm                          +          log 1 +       2     .
                                                                      2               κ  σ
                                                                          cj,n            cj,n
             最小化上述目标函数可得到v i,n 的优化准则,
                                                                                           I       2
                                                               σ cj,n 的估计可通过对 ∂L({W i }       )/∂σ    = 0,得
                                                                                           i=1    cj,n
              v i,nm =                                             2      1   ∑        2
                                                               到 σ    =           |y ij,n | ,其中 N Ω c  表示集合 Ω c
              ∑                                                   cj,n  N Ω c
                     φ(r j,m )y ij,m y ∗
                                ij,n                                        i∈Ω c
              
                   j
                                   ,         m ̸= n,          的元素个数。σ cj,n 可以看作是对当前时刻的信号能
               ∑
                                 2
                      φ(r j,m )|y ij,n |
                     j                                 (15)    量求期望,能够表示声源在时间维度上的活动情况。
                   (                 ) −1/2
              
                     ∑                                        此外,同一子带内的各个频点共用相同的 σ cj,n ,这
                                    2
                                           ,  m = n.
              1 −        φ(r j,n )|y ij,n |
                         j                                     说明子带内的各频点信号协同出现,具有较强的频
             根据式(13),得到y ij 新的计算公式:                            间依赖性。
   2   3   4   5   6   7   8   9   10   11   12