Page 212 - 《应用声学)》2023年第5期
P. 212

1104                                                                                 2023 年 9 月


                 从表 3 可以看出,在进行验证不同嵌入空间维
                                                               4 结论
             数时,随着嵌入空间维数的增加有助于提高网络分
             离性能,但当维数增加到一定值时,网络分离效果                                本文介绍了在时域上用于单通道语声分离任
             显著下降;当σ 为20时,SDRi和SI-SNRi达到最佳,                    务的 Gate-conv cluster,首先将使用改进的堆叠双
             分别为16.30 dB和15.89 dB。实验研究表明了在不                    支路非线性门控卷积对编码后的语声进行建模,然
             同维度嵌入空间的接近度会影响不同源信号特征                             后通过实验研究了最优嵌入空间的维数,在高维特
             单元聚类的性能        [19] ,同时也证明了在最优维度特征                征空间中进行聚类,追踪不同源信号的长时特征表
             空间中Gate-conv cluster框架能够在语声分离任务                   示;同时网络训练使用了基于目标语声的尺度不变
             中表现得更好。                                           信噪比作为损失函数,实现端到端信号分离。实验
             3.6 与不同聚类方法和基线 ConvTasNet 的研                      结果表明,与基线 ConvTasNet 和以往传统聚类分
                  究比较                                          离的方法相比,Gate-conv cluster 框架具有更好的
                 通过以上实验验证分析研究,Gate-conv clus-                  分离性能。
             ter 在运行 100 个 epoch 后,与不同聚类方法和基线                      由于时域卷积更关注语声的局部信息,因此,
             ConvTasNet 在同一数据集 wsj0-2mix 下进行说话                 下一阶段工作将使网络能够学习全局说话人信息,
             人分离的研究比较,实验结果如表4所示。                               提高语声分离模型的鲁棒性。

                表 4  与不同聚类方法和基线 ConvTasNet 的
                分离结果对比                                                        参 考 文        献
                Table 4 Comparison of separation results
                of different clustering methods and base-         [1] Wang D L, Chen J. Supervised speech separation based
                                                                   on deep learning: an overview[J]. IEEE/ACM Transac-
                line ConvTasNet
                                                                   tions on Audio, Speech, and Language Processing, 2018,
                                                                   26(10): 1702–1726.
                     模型         Causal SDRi/dB SI-SNRi/dB        [2] Zeghidour N, Grangier D. Wavesplit: end-to-end speech
                                                                   separation by speaker clustering[J]. IEEE/ACM Transac-
                  DPCL++  [3]     x      —        10.8
                                                                   tions on Audio, Speech, and Language Processing, 2021,
                    DANet [4]     x      10.3     10.5             29: 2840–2849.
                                                                 [3] Hershey J R, Chen Z, Le Roux J, et al. Deep clustering:
                   ADANet [5]     x      10.8     10.4
                                                                   discriminative embeddings for segmentation and separa-
                  Chimera++ [6]   x      12.0     11.5             tion[C]//2016 IEEE International Conference on Acous-
                                                                   tics, Speech and Signal Processing (ICASSP). IEEE, 2016:
                   TasNet [7]     x      13.6     13.2
                                                                   31–35.
                  ConvTasNet [6]  x      15.6     15.3           [4] Chen Z, Luo Y, Mesgarani N. Deep attractor network for
                                  √                                single-microphone speaker separation[C]//2017 IEEE In-
               Gate-conv cluster        16.72    16.33
                                                                   ternational Conference on Acoustics, Speech and Signal
                 从表 4 所示,在时域上,Gate-conv cluster 与                  Processing (ICASSP). IEEE, 2017: 246–250.
                                                                 [5] Luo Y, Chen Z, Mesgarani N. Speaker-independent speech
             ConvTasNet 的 TCN 结构的基线       [8]  相比,在因果任             separation with deep attractor network[J]. IEEE/ACM
             务中实现了端到端训练,SDRi和SI-SNRi分别能提                           Transactions on Audio, Speech, and Language Process-
             高1.12 dB 和1.03 dB;与之前聚类操作的网络架构                        ing, 2018, 26(4): 787–796.
                                                                 [6] Wang Z Q, Le Roux J, Hershey J R. Alternative objective
             相比,性能明显优之前无语声建模的聚类框架,其                                functions for deep clustering[C]//2018 IEEE International
             中 SDRi 和 SI-SNRi 分别达到 16.72 dB 和 16.33 dB             Conference on Acoustics, Speech and Signal Processing
             的效果。实验证明了本文提出Gate-conv cluster,通                      (ICASSP). IEEE, 2018: 686–690.
                                                                 [7] Luo Y, Mesgarani N. TasNet: time-domain audio sepa-
             过堆叠的门控卷积对语声进行深层次的建模,然
                                                                   ration network for real-time, single-channel speech sepa-
             后在最优维度的空间中,聚类对映射的特征单元                                 ration[C]//2018 IEEE International Conference on Acous-
             进行表示和划分,为恢复不同信号源提供了一个                                 tics, Speech and Signal Processing (ICASSP). IEEE, 2018:
                                                                   696–700.
             长期的说话者表示信息,能够进一步提高语声分离
                                                                 [8] Luo Y, Mesgarani N. Conv-TasNet: surpassing ideal time-
             性能。                                                   frequency magnitude masking for speech separation[J].
   207   208   209   210   211   212   213   214   215   216   217