Page 65 - 201901
P. 65
第 38 卷 第 1 期 郭颖等: 偏度最大化多通道逆滤波语声去混响研究 61
1.2 目标函数 熵,用来衡量信号的非高斯性,可以用高阶统计量表
根据上面的讨论,需要建立合适的目标函数 示,三阶统计量 ——偏度用来衡量概率密度分布的
W 偏斜程度,定义为
来估计 g 和 a。考虑逆滤波后残差信号 {d(n)}
n=1
样本间的相关性最小,采用交互信息作为目标函 γ = µ 3 , (7)
σ 3
数 [15] :
其中,µ 3 为三阶中心距,σ 为标准差。相对于四阶统
W
∑ 计量峰度,偏度的优势主要体现在衡量一些概率密
J(n) = H [d(n)] − H (d )
′
n=1 度分布具有不对称性的声源信号非高斯性上。
W W 本文考虑偏度作为衡量语声信号非高斯性的
∑ ∑
= − Γ [d(n)] + lg υ [d(n)]
准则,根据公式(7),目标函数可进一步表示为
n=1 n=1
∑ W [ ] W
3
′
− lg det (d ) , (6) ∑ E d (n) ∑
J(n) = − 3 + lg υ [d(n)]
2
E 2 [d (n)] n=1
n=1
其中,W 为样本点数,H (ξ) 表示随机变量 ξ 的微分 ∑
′
T
熵,d = [d (W) , · · · , d (1)] ,υ [d(n)] 表示 d (n) 的 − lg det (d ) . (8)
′
∑ [ ]
′ ’T
方差, (d ) = E d d 。Γ [d(n)]表示d (n) 的负 因此可以建模为下面的优化问题:
′
( )
W [ 3 ] W
∑ E d (n) ∑ ∑
∗ ∗ ′
{g , a } = arg min − 3 + lg υ [d(n)] − lg det (d ) ,
2
E 2 [d (n)] (9)
n=1 n=1
s.t. ∥g∥ = 1 且 a 为最小相位.
约束条件 ∥g∥ = 1 保证了房间脉冲响应逆滤波器的 N×i
∑
2
公 式 (11) 可 以 通 过 d (n) 来 估 计, 公
归一化。同时为了使系统稳定,应保证预测误差滤
n=N(i−1)+1
波器a的最小相位特性。 式 (10) 最小化的问题变为使 d (n) 的均方误差最
1.3 预测误差滤波器的估计 小,可通过对 {y(n)} N(i−1)+16n6N×i 进行线性预测
由于高阶统计量会使预测误差滤波器非最小 分析实现。
具体实现:首先对逆滤波后的输出信号 y(n) 进
相位,因此该部分的估计只考虑二阶项作为目标函
行分帧得到 y i (n),逐帧通过线性预测估计 y i (n) 的
数,表示为
预测误差滤波器系数a i 。而线性预测可以保证估计
W
∑ ∑
′
J 1 (n) = lg υ [d (n)] − lg det (d ) , (10) 得到的预测误差滤波器的最小相位性。
n=1
1.4 房间脉冲响应逆滤波器的估计
∑
′
其中,lg det (d ) 为常数项 [15] ,可忽略。由于语
通常语声信号的激励信号为超高斯分布,它的
声信号的短时平稳性,预测误差滤波器系数在每一
二阶矩相对于高阶矩可以忽略。因此,该部分只考
帧单独求取,对于第 i 帧残差信号 d i (n),目标函数
虑公式(8)中的三阶项部分。目标函数可化简为
N×i
∑
为 lg υ [d (n)]。假设 d(n) 在一帧内是平 [ 3 ]
E d (n)
n=N(i−1)+1 J 2 (n) = 3 . (12)
2
E 2 [d (n)]
N×i
∑
稳的,则 lg υ [d(n)] = N lg υ [d(n)],且由 采用梯度下降法对每个通道的滤波器 g m 进行单独
n=N(i−1)+1 更新,更新方程为
于取对数操作为线性的,随着变量的增加而增加,
∂J 2 (n)
因此有 g r+1 = g + µ . (13)
r
m m r
∂g
m
N lg υ [d(n)] = Nυ [d (n)] . (11) r
目标函数对g 的偏导:
m