Page 19 - 《应用声学》2019年第6期
P. 19

第 38 卷 第 6 期            丁建策等: 基于稀疏表示和特征加权的离格双耳声源定位                                          921

                (  2×1   )
                                                                               M
                                                                            K
             CN 0    , εI 2 , 其中 ε 为 V l,k (m) 的方差。 由于          new     1  ∑ ∑ (     J×J                 H  )jj
                               {  2×M  }                       α j  =              Σ     +µ k (m) (µ k (m))  ,
             V k (m) 相互 独立, V           的概率密 度 函数可                    KM             k
                                 k
                                                                           k=1 m=1
             表示为                                                                                         (26)
                            M  K
                           ∏ ∏                                                 J×J
                  2×M                        2×1               其中,µ k (m) 和Σ       分别为 Y k (m)后验概率分布
             p({V     }|ε)=       CN(V k (m)|0  , εI 2 ). (20)                 k
                  k
                           m=1 k=1                             的均值和方差,可通过高斯混合模型推导计算出来。
                                          J×M
                 为了估计稀疏系数矩阵 Y                  和方位角偏           每次迭代中,更新了参数ε 和α 之后,再更新偏移向
                                          k
             移矢量 β, 需要已知二者的先验概率分布。在                            量 β。假设 α    new  的第 j opt 个元素为 α  new  的最大值,
             高斯混合模型下,假设每帧信号各个频率分量                              那么只更新 β 的第 j opt 个元素,其他元素保持不变。
             对应的稀疏系数向量 Y k (m) 相互独立, 且符合                       偏移向量β 的更新公式如下:
                                          (          )
             同一复高斯分布 Y k (m) ∼ CN 0         J×1 , Λ J×J  ,其                             { M   K
                                                                                          ∑ ∑
                                                                                                 
 ˜
                                                                     new
             中,协方差矩阵 Λ       J×J  = diag (α) 为一个对角矩阵,              β    =    arg min  E           X k (m)
                                                                           β∈[−δ/2,δ/2] J  m=1 k=1
             α = [α 1 , · · · , α j , · · · , α J ] 为 Y k (m) 中各个元素的                          }
             方差。根据高斯分布的性质,α j 的先验概率分布可                                     − Φ 2×J  (β) µ k (m)  
 2  .  (27)

                                                                               k
                                                                                             2
             假设为独立同分布的 Gamma 分布。稀疏系数矩阵
             {  J×M  }                                         偏移向量 β 的更新公式无法用显式表达,可以通过
              Y      以及α的先验概率密度函数可表示为
               k                                               遍历法得到最优解。
                     ({  J×M  }  )
                                                                                 2
                                                                                      2
                    p  Y       |α                                       new  − α∥ /∥α∥ 6 0.001 或者迭代次数
                         k                                         当 ∥α          2    2
                     M   K                                     超过 1000 次时,停止迭代,得到模型中各个参数的
                    ∏ ∏       (             J×J  )
                                      J×1
                 =         CN Y k (m) 0   , Λ    ,     (21)                  ˜
                                                               最优解 ˜ε、 ˜ α 和 β。假设 ˜ α 的最大元素值为 ˜α j opt    ,那
                    m=1 k=1
                                                               么离格声源的方位角估计值为
                            J
                           ∏
                    p (α) =   Γ (α j |1, γ ) ,         (22)                    ˆ  ˜      ˜
                                                                              θ = θ j opt  + β j opt .   (28)
                           j=1
             其中,γ 为 Gamma 分布的参数。方位角偏移矢量 β
                                                               3 实验结果及分析
             中各个元素的先验分布可假设为相互独立的均匀
             分布,那么β 的先验概率分布可表示为                                    本 文 分 别 在 仿 真 和 实 际 声 学 环 境 下 对
                                 ([  δ δ  ] )                  WWSBL-OGBSSL 算法的性能进行了测试。3.1 节
                                         J
                           β ∼ U   − ,      .          (23)
                                     2 2                       测试了本文算法在自由场环境下的双耳声源方位
             综上,WWSBL算法中的待估参数如下:
                                                               角估计性能,3.2节测试了本文算法在噪声环境下的
                             ∆ = {ε, α, β} .           (24)    方位角估计性能,3.3节测试了本文算法在混响环境
                 根据文献 [9],式 (24) 中的模型参数可通过期                    下的方位角估计性能,3.4节测试了本文算法在实际
             望最大化 (Expectation maximization, EM) 算法进           环境下的方位角估计性能。
             行求解。WWSBL 中的 EM 算法将稀疏系数矩阵                             在自由场环境和噪声环境下,实验中的双耳信
             {  J×M  }
              Y      作为一个隐含变量处理,即优化过程中不                        号是由 HRTF 数据库中的 HRIRs 卷积纯净语音信
               k
                   {  J×M  }
             再出现 Y          ,而将参数α 和偏移向量 β 作为优                 号生成。本文选用的 HRTF 数据库为 MIT HRTF
                      k
             化对象,通过最大化                                         数据库    [18] ,纯净语音信号选自 TIMIT 数据库           [19] 。
                   { [ ({        } {  J×M  }      )]}          由于只考虑声源水平角的估计,因此本文算法只
                           ˜ 2×M
                  E lg p   X      , Y      , ε, α, β
                            k        k
                                                               采用了 HRTF 数据库中前半水平面的 HRIRs 数据。
             来估计各个参数的最佳值。各个参数的迭代更新公
                                                               本文将生成的双耳信号分帧加窗后,提取 ILD、ITD
             式如下:
                                                               等双耳特征。双耳信号的采样率为 16 kHz,帧长
                     M  K
                    ∑ ∑                              
 2

                           
X k (m) − Φ
             ε new  =      
  ˜        2×J  (β) µ k (m)
       为 32 ms,帧移为 16 ms,窗函数采用汉明窗。由
                                       k
                                                      2
                    m=1 k=1                                    于 MIT HRTF 数据库使用的 KEMAR 人工头半径
                         K
                      1  ∑    (  J×J  (  2×J  ) H  2×J   )     为 7.6 cm,因此本文将 ITD 特征的取值范围限定
                   +        tr Σ k   Φ k   (β)  Φ k   (β) ,
                     2K                                        为 [−1, 1] ms,同时将 ILD 特征的取值范围设定为
                        k=1
                                                       (25)    [−40, 40] dB。空气中的声速为343 m/s。
   14   15   16   17   18   19   20   21   22   23   24