Page 8 - 《应用声学》2022年第6期

P. 8

854 2022 年 11 月

信息。当声源位置发生突变后，传声器阵元间的 τ(t) = (τ(n)+τ(n − 1)+· · ·+τ(n − m 0 − 1))/10,
TDOA 也必然发生变化。因此，可以对去混响信号 t = n/m 0 , (22)
进行时延估计(Time delay estimation, TDE)，通过
其中，m 0 的取值过大或过小都会影响算法的效果，
检测不同传声器信号之间时延的变化来判断说话
本文通过实验验证选取了较为合适的数值，m 0 的取
人位置的突变。
值为10。
本文采用广义互相关(Generalized cross corre-
(3) 计算时延的相对变化
lation, GCC) 算法 [14] 来估计时延。将多路去混响
在每个时刻时延的相对变化定义为
信号作为时延估计算法的输入信号，根据式 (18) 得

出当前帧的去混响信号之间的互相关函数，然后通 δ(t) = τ(t) − τ(t − 1) . (23)
过式(19)估计出去混响信号之间的时延：本文设定了一个阈值 ϵ，若当前时刻时延的相对变
∫
∞ 化量大于设定的阈值，即满足 δ(t) > ϵ，则判定说话
(τ) = (ω)e jωτ dω, (18)
R x 1 x 2 Ψ 12 (ω)G x 1 x 2
人位置发生突变。阈值 ϵ 的确定取决于时延的相对
−∞
(τ), (19) 变化，而影响时延的相对变化量的主要参数是传声
τ 12 = arg max R x 1 x 2
器间距 d 和声源角度 θ，传声器间距 d 越大，选取的
(ω) 为两信号之间的互功率谱，表示为
其中，G x 1 x 2
阈值ϵ也应该越大。针对本文的实验条件，为了选取
(ω) = X 1 (ω) · X (ω)，Ψ 12 (ω) 为频域加权函
∗
2
G x 1 x 2
(ω)|。这种加权函数一个合适的阈值，在第 3 节中进行了大量的的仿真
数，表示为 Ψ 12 (ω) = 1/ |G x 1 x 2
实验，最终根据仿真结果确定了ϵ的取值，见表1。
被称为相位变换(Phase transformation, PHAT)加
权，PHAT-GCC 方法相对其他加权方法而言，对混
3 仿真实验
响的鲁棒性较好 [15] 。
然而经过去混响后的语声仍会残留一些混响， 3.1 仿真环境
这会导致时延估计算法在某些时刻产生错误的估本文的仿真实验条件如下：利用 Allen 等 [16]
计值，特别是当处于混响较强的环境下时，时延估计所提出的镜像源法 (Image method) 模拟生成 RIR，
的正确率会明显降低，估计误差明显增大，这会影响模拟的房间尺寸为 6 m × 5 m × 3 m，混响时间
对声源位置突变的判断。为了减少错误的时延估计 T 60 ∈ {300, 500, 800} ms。设置由 4 个传声器组成
值，提高算法的鲁棒性，对估计出的时延数据进行了的线性阵列，其中传声器之间的间隔为 10 cm，声源
下列处理：与传声器阵列中心的距离为 2 m。声源先位于传声
(1) 设置合理的时延区间器阵列的左侧 45 方向发声，6 s 后改变到右侧 45 ◦
◦
根据图 1 中的传声器阵列模型进行 TDOA 估的位置。仿真实验中的语声数据均来源于 TIMIT
计时，声源到传声器阵列的夹角为 θ，d 为两个传声语声数据库 [17] ，其采样频率为16 kHz。实验中的各
器之间的间距，c 为空气中的声速，根据传声器阵项参数设置如表1所示。
列的几何关系，两个传声器间的时延可以表示为
3.2 仿真结果
τ 12 = d cos θ/c，因此正确的时延值应该满足
图2显示了混响时间T 60 = 500 ms条件下时延
d d
− 6 τ 6 . (20) 的相对变化量，从图中可以看出，在 6 s 时刻说话人
c c
根据式 (20) 对估计的时延数值逐一进行判断，将不位置突变时，时延的相对变化量明显增大，超过了所
合理的时延剔除。设置的阈值。在大量的仿真测试中，第 2 节所提出
(2) 数据平滑后取多帧平均的检测方法都正确地检测到了说话人位置的突变。
依次对每一帧的时延值进行数据平滑，平滑后算法的性能和去混响效果采用 Mel 频率倒谱
的时延表示为系数 (Mel frequency cepstral coeﬃcient, MFCC)
距离改善 (∆MFCC) [18] 和语声质量感知评价 [19]
˜ τ(n) = θ˜τ(n − 1) + (1 − θ)τ(n). (21)
(Perceptual evaluation of speech quality, PESQ)
再对每 m 0 帧的数据取均值，这m 0 帧时间内的时延两种客观指标来评估。最终的仿真结果均是 10 组
表示为不同模拟混响样本的集合平均值。

3 4 5 6 7 8 9 10 11 12 13