Page 8 - 《应用声学》2022年第6期
P. 8

854                                                                                 2022 年 11 月


             信息。当声源位置发生突变后,传声器阵元间的                              τ(t) = (τ(n)+τ(n − 1)+· · ·+τ(n − m 0 − 1))/10,
             TDOA 也必然发生变化。因此,可以对去混响信号                                 t = n/m 0 ,                        (22)
             进行时延估计(Time delay estimation, TDE),通过
                                                               其中,m 0 的取值过大或过小都会影响算法的效果,
             检测不同传声器信号之间时延的变化来判断说话
                                                               本文通过实验验证选取了较为合适的数值,m 0 的取
             人位置的突变。
                                                               值为10。
                 本文采用广义互相关(Generalized cross corre-
                                                                   (3) 计算时延的相对变化
             lation, GCC) 算法  [14]  来估计时延。将多路去混响
                                                                   在每个时刻时延的相对变化定义为
             信号作为时延估计算法的输入信号,根据式 (18) 得



             出当前帧的去混响信号之间的互相关函数,然后通                                        δ(t) = τ(t) − τ(t − 1) .    (23)
             过式(19)估计出去混响信号之间的时延:                              本文设定了一个阈值 ϵ,若当前时刻时延的相对变
                          ∫
                            ∞                                  化量大于设定的阈值,即满足 δ(t) > ϵ,则判定说话
                    (τ) =                 (ω)e jωτ  dω,  (18)
               R x 1 x 2       Ψ 12 (ω)G x 1 x 2
                                                               人位置发生突变。阈值 ϵ 的确定取决于时延的相对
                           −∞
                                       (τ),            (19)    变化,而影响时延的相对变化量的主要参数是传声
                    τ 12 = arg max R x 1 x 2
                                                               器间距 d 和声源角度 θ,传声器间距 d 越大,选取的
                       (ω) 为两信号之间的互功率谱,表示为
             其中,G x 1 x 2
                                                               阈值ϵ也应该越大。针对本文的实验条件,为了选取
                  (ω) = X 1 (ω) · X (ω),Ψ 12 (ω) 为频域加权函
                                 ∗
                                 2
             G x 1 x 2
                                        (ω)|。这种加权函数            一个合适的阈值,在第 3 节中进行了大量的的仿真
             数,表示为 Ψ 12 (ω) = 1/ |G x 1 x 2
                                                               实验,最终根据仿真结果确定了ϵ的取值,见表1。
             被称为相位变换(Phase transformation, PHAT)加
             权,PHAT-GCC 方法相对其他加权方法而言,对混
                                                               3 仿真实验
             响的鲁棒性较好        [15] 。
                 然而经过去混响后的语声仍会残留一些混响,                          3.1  仿真环境
             这会导致时延估计算法在某些时刻产生错误的估                                 本文的仿真实验条件如下:利用 Allen 等                 [16]
             计值,特别是当处于混响较强的环境下时,时延估计                           所提出的镜像源法 (Image method) 模拟生成 RIR,
             的正确率会明显降低,估计误差明显增大,这会影响                           模拟的房间尺寸为 6 m × 5 m × 3 m,混响时间
             对声源位置突变的判断。为了减少错误的时延估计                            T 60 ∈ {300, 500, 800} ms。设置由 4 个传声器组成
             值,提高算法的鲁棒性,对估计出的时延数据进行了                           的线性阵列,其中传声器之间的间隔为 10 cm,声源
             下列处理:                                             与传声器阵列中心的距离为 2 m。声源先位于传声
                 (1) 设置合理的时延区间                                 器阵列的左侧 45 方向发声,6 s 后改变到右侧 45                 ◦
                                                                              ◦
                 根据图 1 中的传声器阵列模型进行 TDOA 估                      的位置。仿真实验中的语声数据均来源于 TIMIT
             计时,声源到传声器阵列的夹角为 θ,d 为两个传声                         语声数据库      [17] ,其采样频率为16 kHz。实验中的各
             器之间的间距,c 为空气中的声速,根据传声器阵                           项参数设置如表1所示。
             列的几何关系,两个传声器间的时延可以表示为
                                                               3.2  仿真结果
             τ 12 = d cos θ/c,因此正确的时延值应该满足
                                                                   图2显示了混响时间T 60 = 500 ms条件下时延
                               d        d
                             −   6 τ 6   .             (20)    的相对变化量,从图中可以看出,在 6 s 时刻说话人
                               c        c
             根据式 (20) 对估计的时延数值逐一进行判断,将不                        位置突变时,时延的相对变化量明显增大,超过了所
             合理的时延剔除。                                          设置的阈值。在大量的仿真测试中,第 2 节所提出
                 (2) 数据平滑后取多帧平均                                的检测方法都正确地检测到了说话人位置的突变。
                 依次对每一帧的时延值进行数据平滑,平滑后                              算法的性能和去混响效果采用 Mel 频率倒谱
             的时延表示为                                            系数 (Mel frequency cepstral coefficient, MFCC)
                                                               距离改善 (∆MFCC)       [18]  和语声质量感知评价         [19]
                     ˜ τ(n) = θ˜τ(n − 1) + (1 − θ)τ(n).  (21)
                                                               (Perceptual evaluation of speech quality, PESQ)
             再对每 m 0 帧的数据取均值,这m 0 帧时间内的时延                      两种客观指标来评估。最终的仿真结果均是 10 组
             表示为                                               不同模拟混响样本的集合平均值。
   3   4   5   6   7   8   9   10   11   12   13