Page 17 - 《应用声学》2019年第6期
P. 17

第 38 卷 第 6 期            丁建策等: 基于稀疏表示和特征加权的离格双耳声源定位                                          919


             x l|r (n) (x l (n)或x r (n))可表示为                   那么包含离格偏移参数的离格字典矩阵可表示为
                    x l|r (n) = h l|r (θ) ∗ s (n) + v l|r (n) ,  (1)  Φ 2×J  (β) = A 2×J  + B 2×J  diag (β) .  (6)
                                                                       k           k      k
             其中,“∗” 为卷积运算符,h l|r (θ) 为声源到达左右耳
                                                               进 一 步 定 义 一 个 稀 疏 系 数 向 量 Y k (m)           =
             (左耳或右耳) 传声器的房间脉冲响应,θ 为声源的                         [                                 ] T
                                                                Y k (1, m), · · · , Y k (j, m), · · · , Y k (J, m)  ,其中,
             方位角,v l|r (n)为左右耳传声器接收到的环境噪声。                                        
             在频域中,式(1)可表示为                                                         X r,k (m) , j = p,
                                                                        Y k (j, m) =                      (7)
               X l|r,k (m) = H l|r,k (θ) S k (m) + V l|r,k (m) ,  (2)              0,         其他,
             其中,X l|r,k (m)、H l|r,k (θ)、S k (m)、V l|r,k (m)分别为  那么,离格双耳信号的稀疏表示模型为
             x l|r (n)、h l|r (θ)、s (n)、v l|r (n)第m帧N STFT 点短时                   2×J
                                                                     X k (m) ≈ Φ k  (β) Y k (m) + V k (m) .  (8)
             傅里叶变换 (Short-time Fourier transform, STFT)
             第 k 个频率分量,k ∈ {0, 1, · · · , K − 1},K 为频点             由于声源方位角 θ 为未知量,因此稀疏系数向
             总数。                                               量Y k (m)和方位角偏移矢量β 都是未知量。基于声
                 声 源 方 位 角 θ 对 应 的 导 向 矢 量 可 定 义 为             源的空间稀疏性,可将式 (8) 中的离格声源方位角
                                      T
             a k (θ) = [H l,k (θ)/H r,k (θ), 1] ,那么式(2)可近似为    估计问题转化为一个凸优化问题,并通过稀疏重建
                                                               方法   [13]  估计 Y k (m) 和 β。离格声源方位角估计问
                   X k (m) ≈ a k (θ) X r,k (m) + V k (m) ,  (3)
                                                               题可简化为
                                               T
             其中,X k (m) = [X l,k (m) , X r,k (m)] ,V k (m) =
                                                                          K
                             T
             [V l,k (m) , V r,k (m)] 。                            arg min  ∑ { 
 X k (m) − Φ 2×J  (β) Y k (m)  
 2


                 假设 HRTF 数据库在人工头前半水平面内                            Y k (m),β  k=1          k              2
                                                      ˜
             包 含 J 个 等 间 隔 分 布 的 测 量 方 位 角, 为 θ =                             + λ ∥Y k (m)∥  } ,          (9)
                                                                                          1
              ˜
                     ˜
                            ˜
             {                }
              θ 1 , · · · , θ j , · · · , θ J ,方位角间隔为 δ。若声源方   其中,λ为常量,表示拉格朗日乘子。
                                                         }
                                                       ˜
                             ˜    ˜     { θ 1 , · · · , θ j , · · · , θ J ,
                                         ˜
                                                ˜
             位角 θ 满足 θ = θ q 且 θ q ∈
             那 么 该 声 源 为 在 格 声 源, 对 应 的 双 耳 信 号 为                           )35'฾᧚வͯᝈ
             在格双耳信号; 若声源方位角 θ 位于测量方位
                             {                }
                                     ˜
                                            ˜
                              ˜
             角之间,即 θ /∈       θ 1 , · · · , θ j , · · · , θ J ,那么该声                  ฾᧚ᫎᬦ δ
             源 为 离 格 声 源, 对 应 的 双 耳 信 号 为 离 格 双 耳
             信号。利用 HRTF 数据库中的头相关脉冲响应                                  ܦູͯᎶ                 Կ᏿
                                                                                            ࢻ᏿
             (Head-related impulse responses, HRIRs) 可计算
                                                                             ඵࣱ᭧
                                                    ˜
                               ˜
             出每个测量方位角 θ j 对应的导向矢量 a k (θ j ),由                                        ᝈएϠረ᧚ β
             此双耳声源定位中的字典矩阵可表示为 A                     2×J  =              图 1  离格双耳声源定位示意图
             [                           ]           k
                 ˜
                                       ˜
                            ˜
              a k (θ 1 ), · · · , a k (θ j ), · · · , a k (θ J ) 。  Fig. 1 Off-grid binaural sound source localization
                                                   {
                                                    θ 1 , · · · ,
                 如 图 1 所 示, 若 声 源 方 位 角 θ /∈        ˜          1.2  导向矢量模型
                      }
             ˜
                    ˜
             θ j , · · · , θ J ,那么声源方位角 θ 对应的导向矢量
                                                                                                           ˜
                                 2×J                               由于头和躯干阴影效应的影响,测量方位角 θ j
             a k (θ) 不在字典矩阵 A       中,这会导致字典不匹配
                                 k                                     ( )
                                                                        ˜
                                                                                  ˜
                                                     ˜
                                                ˜
                                            }
                           {
                                   ˜
                            ˜
                                          ˜
                       ˜
             问题。假设θ p ∈ θ 1 , · · · , θ j , · · · , θ J 且θ p 为θ 中距  处的 h l|r θ j 难以用 θ j 的线性函数表示出来,因此
                                                                                 ( )
                                                                                                     ( )
                                                               ˜
                                                                                                      ˜
                                                                                  ˜
                                                               θ j 处的导向矢量 a k θ j 和其导数矢量 b k θ j 难以
             离 θ 最近的测量方位角,利用一阶泰勒展开,a k (θ)
             可表示为                                              通过 HRTF 数据库直接计算得出。本文提出利用
                                                                                                       ˜
                               ( )     ( )(      )             ILD 和 ITD 的参数模型       [5]  计算测量方位角 θ j 处的
                                                ˜
                                        ˜
                                ˜
                    a k (θ) ≈ a k θ p + b k θ p θ − θ p ,  (4)
                                                               相对传递函数 (Relative transfer functions, RTFs),
                              ˜
                     ˜
             其中,b k (θ p ) 为 a k (θ p ) 的一阶偏导数。定义一个偏           进而获取a k θ j 和b k θ j 。
                                                                          ( )
                                                                                   ( )
                                                                                    ˜
                                                                           ˜
                                                      (
                             [
                                           ( )
                                ( )
                                 ˜
                                                       ˜
                                            ˜
             导数矩阵 B    2×J  = b k θ 1 , · · · , b k θ j , · · · , b k θ J  )]
                                                                                                  ˜
                       k                                           自由场环境下,每个测量方位角 θ j 对应的双
                                [                ] T
             和一个偏移矢量β = β 1 , · · · , β j , · · · , β J  ,其中,
                                                               耳信号的 ILD 和 ITD 可直接通过 HRTF 数据库中
                              
                              ˜                               的 HRIRs 计算获取,其计算方法如文献 [5] 所示。
                                θ p − θ, j = p,
                         β j =                          (5)
                                                                               ˜
                                0,      其他,
                                                              假设测量方位角 θ j 处双耳信号第 k 个频率分量的
   12   13   14   15   16   17   18   19   20   21   22