Page 9 - 《应该声学》2022年第2期

P. 9

第 41 卷第 2 期康坊等：子带 t 分布的快速独立向量分析在语声盲源分离中的应用 177

的 E2A 和 JR2 为例，实验环境设置如图 1 所示。对 3.2 不同子带划分方式对分离性能影响
于纯净语声数据，从 TIMIT 数据库 [14] 中随机选择子带划分方式会影响声源频点间的依赖程度。
120 位录制者、长度为 8 s 的测试语料。在两声源为了探讨不同的划分方式对分离性能的影响，本文
混合 (N = 2) 中，测试语料分别与不同混响时间的测试了在 4 种不同的划分方式下 SIR 和 SDR 的提
脉冲响应卷积得到混合数据 (包括男 -男混合、男 - 升结果。如图 2 所示，图 2(a) ∼ 图2(d) 分别为重叠
女混合和女 -女混合各 20 组)。所有的数据采样率子带均匀划分、重叠子带非均匀划分、无重叠子带
为 16000 Hz。对于混响时间为 300 ms 的混合信号，均匀划分和无重叠子带非均匀划分，其中在无重叠
STFT窗长为 256 ms；对混响时间大于300 ms的混划分中为了避免子带间的模糊性，额外引入一个全
合信号，STFT 窗长为 512 ms，帧移均为 1/4 窗长。频点子带。
在 AuxIVA 算法中，W i 初始化为单位矩阵。在所按照图 2 中的划分方式，在 E2A(声源位置 50 ◦
有算法中总迭代次数设置为 10N。选择 BSS EVAL 和 130 ) 和 JR2 下进行分离实验，其中 κ = 1。图 3
◦
3.0 [15] 中的信号干扰比 (Signal to interference ra- 给出了各子带划分方式在 30 组独立实验下的平均
tio, SIR) 和信号失真比 (Signal to distortion ratio, 分离结果。从图 3 中可以看出，在混响时间较短的
SDR)作为分离性能的评价指标。 E2A下，不同的子带划分方式对分离性能的影响较

੝ᫎᑢф־ऄE2A (RT 60=300 ms) ੝ᫎᑢф־ऄJR2 (RT 60=470 ms)

70O 90O 60O
110O 120O
50O
130O
2 m 2 m
10O 170O

5.66 cm 5.66 cm
(a) ຉ־˞E2A௑ᄊै҄౎͈ (b) ຉ־˞JR2௑ᄊै҄౎͈

图 1 实验环境设置
Fig. 1 Simulated room environment

1
2
3
4
1/5 2/5 3/5 4/5 1
(a) ᧘ԯکӉѳѬ
1
2
3
4
1/8 1/4 3/8 1/2 3/4 1
(b) ᧘ԯ᭤کӉѳѬ
1
2
3
4
1/3 2/3 1
(c) ௄᧘ԯکӉѳѬ
1
2
3
4
1/4 1/2 3/4 1
(d) ௄᧘ԯ᭤کӉѳѬ
Ͱᮠ ᰴᮠ

图 2 不同子带划分方式
Fig. 2 Diﬀerent frequency clique divisions

4 5 6 7 8 9 10 11 12 13 14