Page 9 - 《应该声学》2022年第2期
P. 9
第 41 卷 第 2 期 康坊等: 子带 t 分布的快速独立向量分析在语声盲源分离中的应用 177
的 E2A 和 JR2 为例,实验环境设置如图 1 所示。对 3.2 不同子带划分方式对分离性能影响
于纯净语声数据,从 TIMIT 数据库 [14] 中随机选择 子带划分方式会影响声源频点间的依赖程度。
120 位录制者、长度为 8 s 的测试语料。在两声源 为了探讨不同的划分方式对分离性能的影响,本文
混合 (N = 2) 中,测试语料分别与不同混响时间的 测试了在 4 种不同的划分方式下 SIR 和 SDR 的提
脉冲响应卷积得到混合数据 (包括男 -男混合、男 - 升结果。如图 2 所示,图 2(a) ∼ 图2(d) 分别为重叠
女混合和女 -女混合各 20 组)。所有的数据采样率 子带均匀划分、重叠子带非均匀划分、无重叠子带
为 16000 Hz。对于混响时间为 300 ms 的混合信号, 均匀划分和无重叠子带非均匀划分,其中在无重叠
STFT窗长为 256 ms;对混响时间大于300 ms的混 划分中为了避免子带间的模糊性,额外引入一个全
合信号,STFT 窗长为 512 ms,帧移均为 1/4 窗长。 频点子带。
在 AuxIVA 算法中,W i 初始化为单位矩阵。在所 按照图 2 中的划分方式,在 E2A(声源位置 50 ◦
有算法中总迭代次数设置为 10N。选择 BSS EVAL 和 130 ) 和 JR2 下进行分离实验,其中 κ = 1。图 3
◦
3.0 [15] 中的信号干扰比 (Signal to interference ra- 给出了各子带划分方式在 30 组独立实验下的平均
tio, SIR) 和信号失真比 (Signal to distortion ratio, 分离结果。从图 3 中可以看出,在混响时间较短的
SDR)作为分离性能的评价指标。 E2A下,不同的子带划分方式对分离性能的影响较
ᫎᑢф־ऄE2A (RT 60=300 ms) ᫎᑢф־ऄJR2 (RT 60=470 ms)
70O 90O 60O
110O 120O
50O
130O
2 m 2 m
10O 170O
5.66 cm 5.66 cm
(a) ຉ־˞E2Aᄊै͈҄ (b) ຉ־˞JR2ᄊै͈҄
图 1 实验环境设置
Fig. 1 Simulated room environment
1
2
3
4
1/5 2/5 3/5 4/5 1
(a) ᧘ԯکӉѳѬ
1
2
3
4
1/8 1/4 3/8 1/2 3/4 1
(b) ᧘ԯ᭤کӉѳѬ
1
2
3
4
1/3 2/3 1
(c) ᧘ԯکӉѳѬ
1
2
3
4
1/4 1/2 3/4 1
(d) ᧘ԯ᭤کӉѳѬ
Ͱᮠ ᰴᮠ
图 2 不同子带划分方式
Fig. 2 Different frequency clique divisions