Page 10 - 《应用声学》2019年第6期
P. 10
912 2019 年 11 月
下来的性能评估实验中,麦克风阵列被放置于距离
3 DOA估计
地面 1 m 高的房间水平面中心位置,单个播放声源
3.1 逐时频区域的构建CH域SCM 的扬声器被依次放置于方位角间隔30 的6 个方位,
◦
与传统UCA构建SCM的方法类似 [27] ,UCCA 扬声器高度同为 1 m,声源到麦克风阵列中心位置
的CH域SCM可以由式(19)计算得到: 距离为 2 m。以下仿真结果会统计平均所有声源方
位。虚源法 [29] 被用于生成带有混响的多通道信号,
I−1 K−1
∑ ∑ T
¯
˜
˜
R(τ, ν)= C c (τ +i, ν+k)C c (τ +i, ν+k) , 多通道不相关的高斯白噪声被添加至带混响信号,
i=0 k=0 加入噪声后的信号被看作是阵列采样信号。另外,
(19)
需要使用语音激活检测 (Voice activity detection,
˜
式 (19) 中,C c (τ, ν) 为补偿后 CH 分解系数向量,其 VAD)模块 [30] 对阵列采样信号进行预处理,截取语
中 τ、ν 分别为时间索引和频率索引,I 为时域平滑 音段,舍去非语音段。语音段数据每10帧(0.16 s) 获
帧数,K 为频域平滑子带数。SCM的获取需要进行 得一个平均的声源方位估计结果。每一帧数据选取
¯
时间和频率域的二维平滑,时域平滑令R(τ, ν)的有 离散傅里叶变换后的 88 个子带 (500∼6000 Hz),考
效秩趋向等于非相干声源的数目;频率域平滑进一 虑频域步进间隔为 5 个子带,此时每一帧数据会进
¯
步提升R(τ, ν)的有效秩,使其有效值接近于相干反 行16次声源方位估计。那么10帧一共获得160个定
射声和非相干直达声总数目。需要强调的是,频域 位结果,对该 160 个结果进行中值平均进而估计出
平滑是 CSSM 的基础,也可以减少扫描的频率点数 一个较为稳健的声源方位。仿真分析中使用的软件
目,极大地简化计算复杂度。 为 Matlab 2018b,处理器为 Intel Core i7-6700HQ,
主频2.6 GHz,处理器的核心数为4。
3.2 使用MUSIC方法进行DOA
在每个时频区域,DOA都会被使用多重信号子 表 2 仿真参数设置
空间分类 (Multiple signal classification, MUSIC) Table 2 Parameters of simulations
的方法估计出来。在假设每个 TF 区域只存在一个
参数 值
声源的前提下,声源方位角可以通过搜索空间谱最 采样率 16 kHz
大值来获得: 帧长 256
( ) 帧重叠比例 0%
ˆ 1 , θ ∈ Θ, (20)
θ = max
H
θ ∥A (θ)U N ∥ 频率范围 500∼6000 Hz
时域平滑帧数 1
这 里 A(θ) 为 方 位 角 θ 对 应 的 导 向 矢 量, U N ∈
频域平滑子带数 10
C (2L+1)×2L 为由 SCM 最小的 2L 个特征值对应的 频域步进子带数 5
特征矢量组成的噪声子空间,Θ 为待扫描的方位 UCA 正则化参数 0.00065 [22]
区间。 仿真数据长度 30 min(每个声源方位)
房间尺寸 7 m × 5 m × 3 m
声源俯仰角 90 ◦
4 仿真及实验
方位角扫描范围 −180 : 1 : 180 ◦
◦
◦
4.1 仿真 首先仿真不同信噪比条件下的 UCA 和 UCCA
本小节,为了验证 UCCA具有更优的定位鲁棒 的 DOA 估计的统计性能,将房间的混响时间 (T 60 )
性,该文评估了不同信噪比和混响条件下的 DOA 设置为0.5 s,信噪比依次设置为5 dB、10 dB、15 dB
估计的统计性能。评估算法均采用 CH 域的 CSSM 和20 dB。仿真结果如表3 所示,其中最后一行的实
方法。声源语料来自于 TIMIT [28] 语料库。UCA半 时计算系数的计算公式为实时系数等于声源定位
径和阵元数分别设置为 60 mm 和 16 个,UCCA 配 算法的执行时长除以VAD检测后的数据时长。
置参数如表 1 所示,其他的仿真参数设置如表 2 所 由表3可知,UCA在CH展开阶数为3阶或4阶
示。UCA的最高CH展开阶数为7阶,UCCA的CH 的时候取得了较优的平均绝对离差性能。过低或者
展开阶数受限于阵元数最少的环,最高为3阶。在接 过高的分解阶数均导致了鲁棒性的退化,这是因为