Page 8 - 《应用声学》2022年第6期
P. 8
854 2022 年 11 月
信息。当声源位置发生突变后,传声器阵元间的 τ(t) = (τ(n)+τ(n − 1)+· · ·+τ(n − m 0 − 1))/10,
TDOA 也必然发生变化。因此,可以对去混响信号 t = n/m 0 , (22)
进行时延估计(Time delay estimation, TDE),通过
其中,m 0 的取值过大或过小都会影响算法的效果,
检测不同传声器信号之间时延的变化来判断说话
本文通过实验验证选取了较为合适的数值,m 0 的取
人位置的突变。
值为10。
本文采用广义互相关(Generalized cross corre-
(3) 计算时延的相对变化
lation, GCC) 算法 [14] 来估计时延。将多路去混响
在每个时刻时延的相对变化定义为
信号作为时延估计算法的输入信号,根据式 (18) 得
出当前帧的去混响信号之间的互相关函数,然后通 δ(t) = τ(t) − τ(t − 1) . (23)
过式(19)估计出去混响信号之间的时延: 本文设定了一个阈值 ϵ,若当前时刻时延的相对变
∫
∞ 化量大于设定的阈值,即满足 δ(t) > ϵ,则判定说话
(τ) = (ω)e jωτ dω, (18)
R x 1 x 2 Ψ 12 (ω)G x 1 x 2
人位置发生突变。阈值 ϵ 的确定取决于时延的相对
−∞
(τ), (19) 变化,而影响时延的相对变化量的主要参数是传声
τ 12 = arg max R x 1 x 2
器间距 d 和声源角度 θ,传声器间距 d 越大,选取的
(ω) 为两信号之间的互功率谱,表示为
其中,G x 1 x 2
阈值ϵ也应该越大。针对本文的实验条件,为了选取
(ω) = X 1 (ω) · X (ω),Ψ 12 (ω) 为频域加权函
∗
2
G x 1 x 2
(ω)|。这种加权函数 一个合适的阈值,在第 3 节中进行了大量的的仿真
数,表示为 Ψ 12 (ω) = 1/ |G x 1 x 2
实验,最终根据仿真结果确定了ϵ的取值,见表1。
被称为相位变换(Phase transformation, PHAT)加
权,PHAT-GCC 方法相对其他加权方法而言,对混
3 仿真实验
响的鲁棒性较好 [15] 。
然而经过去混响后的语声仍会残留一些混响, 3.1 仿真环境
这会导致时延估计算法在某些时刻产生错误的估 本文的仿真实验条件如下:利用 Allen 等 [16]
计值,特别是当处于混响较强的环境下时,时延估计 所提出的镜像源法 (Image method) 模拟生成 RIR,
的正确率会明显降低,估计误差明显增大,这会影响 模拟的房间尺寸为 6 m × 5 m × 3 m,混响时间
对声源位置突变的判断。为了减少错误的时延估计 T 60 ∈ {300, 500, 800} ms。设置由 4 个传声器组成
值,提高算法的鲁棒性,对估计出的时延数据进行了 的线性阵列,其中传声器之间的间隔为 10 cm,声源
下列处理: 与传声器阵列中心的距离为 2 m。声源先位于传声
(1) 设置合理的时延区间 器阵列的左侧 45 方向发声,6 s 后改变到右侧 45 ◦
◦
根据图 1 中的传声器阵列模型进行 TDOA 估 的位置。仿真实验中的语声数据均来源于 TIMIT
计时,声源到传声器阵列的夹角为 θ,d 为两个传声 语声数据库 [17] ,其采样频率为16 kHz。实验中的各
器之间的间距,c 为空气中的声速,根据传声器阵 项参数设置如表1所示。
列的几何关系,两个传声器间的时延可以表示为
3.2 仿真结果
τ 12 = d cos θ/c,因此正确的时延值应该满足
图2显示了混响时间T 60 = 500 ms条件下时延
d d
− 6 τ 6 . (20) 的相对变化量,从图中可以看出,在 6 s 时刻说话人
c c
根据式 (20) 对估计的时延数值逐一进行判断,将不 位置突变时,时延的相对变化量明显增大,超过了所
合理的时延剔除。 设置的阈值。在大量的仿真测试中,第 2 节所提出
(2) 数据平滑后取多帧平均 的检测方法都正确地检测到了说话人位置的突变。
依次对每一帧的时延值进行数据平滑,平滑后 算法的性能和去混响效果采用 Mel 频率倒谱
的时延表示为 系数 (Mel frequency cepstral coefficient, MFCC)
距离改善 (∆MFCC) [18] 和语声质量感知评价 [19]
˜ τ(n) = θ˜τ(n − 1) + (1 − θ)τ(n). (21)
(Perceptual evaluation of speech quality, PESQ)
再对每 m 0 帧的数据取均值,这m 0 帧时间内的时延 两种客观指标来评估。最终的仿真结果均是 10 组
表示为 不同模拟混响样本的集合平均值。