Page 10 - 《应用声学》2019年第6期
P. 10

912                                                                                 2019 年 11 月


                                                               下来的性能评估实验中,麦克风阵列被放置于距离
             3 DOA估计
                                                               地面 1 m 高的房间水平面中心位置,单个播放声源
             3.1 逐时频区域的构建CH域SCM                                的扬声器被依次放置于方位角间隔30 的6 个方位,
                                                                                                 ◦
                 与传统UCA构建SCM的方法类似                [27] ,UCCA    扬声器高度同为 1 m,声源到麦克风阵列中心位置
             的CH域SCM可以由式(19)计算得到:                              距离为 2 m。以下仿真结果会统计平均所有声源方
                                                               位。虚源法      [29]  被用于生成带有混响的多通道信号,
                      I−1 K−1
                      ∑ ∑                               T
              ¯
                                           ˜
                              ˜
              R(τ, ν)=        C c (τ +i, ν+k)C c (τ +i, ν+k) ,  多通道不相关的高斯白噪声被添加至带混响信号,
                      i=0 k=0                                  加入噪声后的信号被看作是阵列采样信号。另外,
                                                       (19)
                                                               需要使用语音激活检测 (Voice activity detection,
                       ˜
             式 (19) 中,C c (τ, ν) 为补偿后 CH 分解系数向量,其              VAD)模块    [30]  对阵列采样信号进行预处理,截取语
             中 τ、ν 分别为时间索引和频率索引,I 为时域平滑                        音段,舍去非语音段。语音段数据每10帧(0.16 s) 获
             帧数,K 为频域平滑子带数。SCM的获取需要进行                          得一个平均的声源方位估计结果。每一帧数据选取
                                                ¯
             时间和频率域的二维平滑,时域平滑令R(τ, ν)的有                        离散傅里叶变换后的 88 个子带 (500∼6000 Hz),考
             效秩趋向等于非相干声源的数目;频率域平滑进一                            虑频域步进间隔为 5 个子带,此时每一帧数据会进
                    ¯
             步提升R(τ, ν)的有效秩,使其有效值接近于相干反                        行16次声源方位估计。那么10帧一共获得160个定
             射声和非相干直达声总数目。需要强调的是,频域                            位结果,对该 160 个结果进行中值平均进而估计出
             平滑是 CSSM 的基础,也可以减少扫描的频率点数                         一个较为稳健的声源方位。仿真分析中使用的软件
             目,极大地简化计算复杂度。                                     为 Matlab 2018b,处理器为 Intel Core i7-6700HQ,
                                                               主频2.6 GHz,处理器的核心数为4。
             3.2 使用MUSIC方法进行DOA
                 在每个时频区域,DOA都会被使用多重信号子                                        表 2  仿真参数设置
             空间分类 (Multiple signal classification, MUSIC)             Table 2 Parameters of simulations
             的方法估计出来。在假设每个 TF 区域只存在一个
                                                                     参数                       值
             声源的前提下,声源方位角可以通过搜索空间谱最                                  采样率                    16 kHz
             大值来获得:                                                  帧长                       256
                             (            )                          帧重叠比例                    0%
                     ˆ             1       , θ ∈ Θ,    (20)
                     θ = max
                                 H
                          θ   ∥A (θ)U N ∥                            频率范围                 500∼6000 Hz
                                                                     时域平滑帧数                    1
             这 里 A(θ) 为 方 位 角 θ 对 应 的 导 向 矢 量, U N ∈
                                                                     频域平滑子带数                  10
             C (2L+1)×2L  为由 SCM 最小的 2L 个特征值对应的                      频域步进子带数                   5
             特征矢量组成的噪声子空间,Θ 为待扫描的方位                                  UCA 正则化参数             0.00065 [22]
             区间。                                                     仿真数据长度            30 min(每个声源方位)
                                                                     房间尺寸                7 m × 5 m × 3 m
                                                                     声源俯仰角                    90 ◦
             4 仿真及实验
                                                                     方位角扫描范围             −180 : 1 : 180 ◦
                                                                                                ◦
                                                                                             ◦
             4.1 仿真                                                首先仿真不同信噪比条件下的 UCA 和 UCCA
                 本小节,为了验证 UCCA具有更优的定位鲁棒                        的 DOA 估计的统计性能,将房间的混响时间 (T 60 )
             性,该文评估了不同信噪比和混响条件下的 DOA                           设置为0.5 s,信噪比依次设置为5 dB、10 dB、15 dB
             估计的统计性能。评估算法均采用 CH 域的 CSSM                        和20 dB。仿真结果如表3 所示,其中最后一行的实
             方法。声源语料来自于 TIMIT           [28]  语料库。UCA半         时计算系数的计算公式为实时系数等于声源定位
             径和阵元数分别设置为 60 mm 和 16 个,UCCA 配                    算法的执行时长除以VAD检测后的数据时长。
             置参数如表 1 所示,其他的仿真参数设置如表 2 所                            由表3可知,UCA在CH展开阶数为3阶或4阶
             示。UCA的最高CH展开阶数为7阶,UCCA的CH                         的时候取得了较优的平均绝对离差性能。过低或者
             展开阶数受限于阵元数最少的环,最高为3阶。在接                           过高的分解阶数均导致了鲁棒性的退化,这是因为
   5   6   7   8   9   10   11   12   13   14   15