Page 19 - 《应用声学》2019年第6期
P. 19
第 38 卷 第 6 期 丁建策等: 基于稀疏表示和特征加权的离格双耳声源定位 921
( 2×1 )
M
K
CN 0 , εI 2 , 其中 ε 为 V l,k (m) 的方差。 由于 new 1 ∑ ∑ ( J×J H )jj
{ 2×M } α j = Σ +µ k (m) (µ k (m)) ,
V k (m) 相互 独立, V 的概率密 度 函数可 KM k
k
k=1 m=1
表示为 (26)
M K
∏ ∏ J×J
2×M 2×1 其中,µ k (m) 和Σ 分别为 Y k (m)后验概率分布
p({V }|ε)= CN(V k (m)|0 , εI 2 ). (20) k
k
m=1 k=1 的均值和方差,可通过高斯混合模型推导计算出来。
J×M
为了估计稀疏系数矩阵 Y 和方位角偏 每次迭代中,更新了参数ε 和α 之后,再更新偏移向
k
移矢量 β, 需要已知二者的先验概率分布。在 量 β。假设 α new 的第 j opt 个元素为 α new 的最大值,
高斯混合模型下,假设每帧信号各个频率分量 那么只更新 β 的第 j opt 个元素,其他元素保持不变。
对应的稀疏系数向量 Y k (m) 相互独立, 且符合 偏移向量β 的更新公式如下:
( )
同一复高斯分布 Y k (m) ∼ CN 0 J×1 , Λ J×J ,其 { M K
∑ ∑
˜
new
中,协方差矩阵 Λ J×J = diag (α) 为一个对角矩阵, β = arg min E X k (m)
β∈[−δ/2,δ/2] J m=1 k=1
α = [α 1 , · · · , α j , · · · , α J ] 为 Y k (m) 中各个元素的 }
方差。根据高斯分布的性质,α j 的先验概率分布可 − Φ 2×J (β) µ k (m)
2 . (27)
k
2
假设为独立同分布的 Gamma 分布。稀疏系数矩阵
{ J×M } 偏移向量 β 的更新公式无法用显式表达,可以通过
Y 以及α的先验概率密度函数可表示为
k 遍历法得到最优解。
({ J×M } )
2
2
p Y |α new − α∥ /∥α∥ 6 0.001 或者迭代次数
k 当 ∥α 2 2
M K 超过 1000 次时,停止迭代,得到模型中各个参数的
∏ ∏ ( J×J )
J×1
= CN Y k (m) 0 , Λ , (21) ˜
最优解 ˜ε、 ˜ α 和 β。假设 ˜ α 的最大元素值为 ˜α j opt ,那
m=1 k=1
么离格声源的方位角估计值为
J
∏
p (α) = Γ (α j |1, γ ) , (22) ˆ ˜ ˜
θ = θ j opt + β j opt . (28)
j=1
其中,γ 为 Gamma 分布的参数。方位角偏移矢量 β
3 实验结果及分析
中各个元素的先验分布可假设为相互独立的均匀
分布,那么β 的先验概率分布可表示为 本 文 分 别 在 仿 真 和 实 际 声 学 环 境 下 对
([ δ δ ] ) WWSBL-OGBSSL 算法的性能进行了测试。3.1 节
J
β ∼ U − , . (23)
2 2 测试了本文算法在自由场环境下的双耳声源方位
综上,WWSBL算法中的待估参数如下:
角估计性能,3.2节测试了本文算法在噪声环境下的
∆ = {ε, α, β} . (24) 方位角估计性能,3.3节测试了本文算法在混响环境
根据文献 [9],式 (24) 中的模型参数可通过期 下的方位角估计性能,3.4节测试了本文算法在实际
望最大化 (Expectation maximization, EM) 算法进 环境下的方位角估计性能。
行求解。WWSBL 中的 EM 算法将稀疏系数矩阵 在自由场环境和噪声环境下,实验中的双耳信
{ J×M }
Y 作为一个隐含变量处理,即优化过程中不 号是由 HRTF 数据库中的 HRIRs 卷积纯净语音信
k
{ J×M }
再出现 Y ,而将参数α 和偏移向量 β 作为优 号生成。本文选用的 HRTF 数据库为 MIT HRTF
k
化对象,通过最大化 数据库 [18] ,纯净语音信号选自 TIMIT 数据库 [19] 。
{ [ ({ } { J×M } )]} 由于只考虑声源水平角的估计,因此本文算法只
˜ 2×M
E lg p X , Y , ε, α, β
k k
采用了 HRTF 数据库中前半水平面的 HRIRs 数据。
来估计各个参数的最佳值。各个参数的迭代更新公
本文将生成的双耳信号分帧加窗后,提取 ILD、ITD
式如下:
等双耳特征。双耳信号的采样率为 16 kHz,帧长
M K
∑ ∑
2
X k (m) − Φ
ε new =
˜ 2×J (β) µ k (m)
为 32 ms,帧移为 16 ms,窗函数采用汉明窗。由
k
2
m=1 k=1 于 MIT HRTF 数据库使用的 KEMAR 人工头半径
K
1 ∑ ( J×J ( 2×J ) H 2×J ) 为 7.6 cm,因此本文将 ITD 特征的取值范围限定
+ tr Σ k Φ k (β) Φ k (β) ,
2K 为 [−1, 1] ms,同时将 ILD 特征的取值范围设定为
k=1
(25) [−40, 40] dB。空气中的声速为343 m/s。