Page 10 - 《应该声学》2022年第2期
P. 10
178 2022 年 3 月
小。这是因为当混响时间较短时,STFT窗长更能覆 示的无重叠均匀划分方式。
盖房间脉冲响应长度,频域瞬时模型的假设更容易
3.3 自由度选择对分离性能影响
成立,分离任务简单。由于在简单的分离任务下发
为了探讨提出的改进算法在不同 t 分布自
生顺序模糊性的概率较低,所以避免模糊性的子带
由 度 下 的 分 离 性 能, 分 别 设 置 自 由 度 为 κ =
模型作用相对不明显。当混响时间增加,如图 3(b)
{1, 2, 5, 10, 50, 100}。每种自由度设置下,实验结
所示,分离任务难度增大,此时对声源模型的准确 果是 60 组混合数据分离后的平均值。其中 E2A 下
性要求更高,不同的子带划分方式对分离结果影响 声源位置选择50 和130 。
◦
◦
较大。在 4 种划分方式中,无重叠划分要略优于重 从图 4 中可以看出,无论是在混响时间 300 ms
叠子带划分,其中无重叠均匀划分取得了最优的分 还是 470 ms 时,改进的算法在自由度 κ = 1 时分离
离结果。因为重叠子带划分方式会使得同一子带内 性能最优。随着自由度 κ 的增大,假设的声源概率
重叠部分的频点与非重叠部分频点间声源模型参 密度函数逐渐接近高斯分布,分离性能逐渐下降,这
数不一致,而无重叠子带划分方式保留了子带内频 也说明语声信号的分布更符合重尾分布,在合适的
点间统一的依赖性,更有利于避免顺序模糊性问题。 声源模型下能取得更好的分离结果。因此,在后续
根据此实验结果,在后续实验中均选用如图 2(c) 所 实验中,经验选取自由度κ = 1。
20
30
∆ SIR ∆ SIR
∆ SDR ∆ SDR
25
15
ভᑟଢӤ/dB 15 ভᑟଢӤ/dB 10
20
10
5
5
0 0
᧘ԯکӉ ᧘ԯ᭤کӉ ᧘ԯکӉ ᧘ԯ᭤کӉ ᧘ԯکӉ ᧘ԯ᭤کӉ ᧘ԯکӉ ᧘ԯ᭤کӉ
(a) ຉ־E2AʾᄊভᑟଢӤ (b) ຉ־JR2ʾᄊভᑟଢӤ
图 3 不同子带划分方式下的分离性能
Fig. 3 Separation performance with different frequency clique divisions
κ=1 κ=2 κ=5 κ=10 κ=50 κ=100
30 15 9
20
8
25
7
15
20 10 6
DSIR/dB 15 DSDR/dB 10 DSIR/dB DSDR/dB 5 4
10 5 3
5 2
5
1
0 0 0 0
ஈᤉᄊFast AuxIVA ஈᤉᄊFast AuxIVA
(a) ຉ־E2A (b) ຉ־JR2
图 4 不同自由度下所提算法的分离性能
Fig. 4 Separation performance with different κ