Page 212 - 《应用声学)》2023年第5期
P. 212
1104 2023 年 9 月
从表 3 可以看出,在进行验证不同嵌入空间维
4 结论
数时,随着嵌入空间维数的增加有助于提高网络分
离性能,但当维数增加到一定值时,网络分离效果 本文介绍了在时域上用于单通道语声分离任
显著下降;当σ 为20时,SDRi和SI-SNRi达到最佳, 务的 Gate-conv cluster,首先将使用改进的堆叠双
分别为16.30 dB和15.89 dB。实验研究表明了在不 支路非线性门控卷积对编码后的语声进行建模,然
同维度嵌入空间的接近度会影响不同源信号特征 后通过实验研究了最优嵌入空间的维数,在高维特
单元聚类的性能 [19] ,同时也证明了在最优维度特征 征空间中进行聚类,追踪不同源信号的长时特征表
空间中Gate-conv cluster框架能够在语声分离任务 示;同时网络训练使用了基于目标语声的尺度不变
中表现得更好。 信噪比作为损失函数,实现端到端信号分离。实验
3.6 与不同聚类方法和基线 ConvTasNet 的研 结果表明,与基线 ConvTasNet 和以往传统聚类分
究比较 离的方法相比,Gate-conv cluster 框架具有更好的
通过以上实验验证分析研究,Gate-conv clus- 分离性能。
ter 在运行 100 个 epoch 后,与不同聚类方法和基线 由于时域卷积更关注语声的局部信息,因此,
ConvTasNet 在同一数据集 wsj0-2mix 下进行说话 下一阶段工作将使网络能够学习全局说话人信息,
人分离的研究比较,实验结果如表4所示。 提高语声分离模型的鲁棒性。
表 4 与不同聚类方法和基线 ConvTasNet 的
分离结果对比 参 考 文 献
Table 4 Comparison of separation results
of different clustering methods and base- [1] Wang D L, Chen J. Supervised speech separation based
on deep learning: an overview[J]. IEEE/ACM Transac-
line ConvTasNet
tions on Audio, Speech, and Language Processing, 2018,
26(10): 1702–1726.
模型 Causal SDRi/dB SI-SNRi/dB [2] Zeghidour N, Grangier D. Wavesplit: end-to-end speech
separation by speaker clustering[J]. IEEE/ACM Transac-
DPCL++ [3] x — 10.8
tions on Audio, Speech, and Language Processing, 2021,
DANet [4] x 10.3 10.5 29: 2840–2849.
[3] Hershey J R, Chen Z, Le Roux J, et al. Deep clustering:
ADANet [5] x 10.8 10.4
discriminative embeddings for segmentation and separa-
Chimera++ [6] x 12.0 11.5 tion[C]//2016 IEEE International Conference on Acous-
tics, Speech and Signal Processing (ICASSP). IEEE, 2016:
TasNet [7] x 13.6 13.2
31–35.
ConvTasNet [6] x 15.6 15.3 [4] Chen Z, Luo Y, Mesgarani N. Deep attractor network for
√ single-microphone speaker separation[C]//2017 IEEE In-
Gate-conv cluster 16.72 16.33
ternational Conference on Acoustics, Speech and Signal
从表 4 所示,在时域上,Gate-conv cluster 与 Processing (ICASSP). IEEE, 2017: 246–250.
[5] Luo Y, Chen Z, Mesgarani N. Speaker-independent speech
ConvTasNet 的 TCN 结构的基线 [8] 相比,在因果任 separation with deep attractor network[J]. IEEE/ACM
务中实现了端到端训练,SDRi和SI-SNRi分别能提 Transactions on Audio, Speech, and Language Process-
高1.12 dB 和1.03 dB;与之前聚类操作的网络架构 ing, 2018, 26(4): 787–796.
[6] Wang Z Q, Le Roux J, Hershey J R. Alternative objective
相比,性能明显优之前无语声建模的聚类框架,其 functions for deep clustering[C]//2018 IEEE International
中 SDRi 和 SI-SNRi 分别达到 16.72 dB 和 16.33 dB Conference on Acoustics, Speech and Signal Processing
的效果。实验证明了本文提出Gate-conv cluster,通 (ICASSP). IEEE, 2018: 686–690.
[7] Luo Y, Mesgarani N. TasNet: time-domain audio sepa-
过堆叠的门控卷积对语声进行深层次的建模,然
ration network for real-time, single-channel speech sepa-
后在最优维度的空间中,聚类对映射的特征单元 ration[C]//2018 IEEE International Conference on Acous-
进行表示和划分,为恢复不同信号源提供了一个 tics, Speech and Signal Processing (ICASSP). IEEE, 2018:
696–700.
长期的说话者表示信息,能够进一步提高语声分离
[8] Luo Y, Mesgarani N. Conv-TasNet: surpassing ideal time-
性能。 frequency magnitude masking for speech separation[J].