Page 211 - 《应用声学)》2023年第5期
P. 211

第 42 卷 第 5 期              罗宇等: 一种基于聚类的门控卷积网络语声分离方法                                         1103


             进行混合,建成包括 49 名男性和 51 名女性说话人、                      有效地提取语声信号的深层次特征,对于语声分离
             总量为30 h的训练集。此外,10 h验证集和5 h测试                      效果有着一定的改善。
             集来自 WSJ0 的 si_dt_05 文件夹和 si_et_05 文件
                                                               3.4  高维聚类和不做聚类直接估计 mask 方法的
             夹的 16 个说话人的言语 (与训练集不同)。最后,经                            验证分析
             过8 kHz降采样,得到精度为16 bit的20000条语声
                                                                   基于Gate-conv,在WSJ0-2mix数据集下,使用
             训练集、5000 条语声验证集、3000 条语声数据测试
                                                               相同实验设置,分别进行高维空间聚类 (Gate-conv
             集  [3] 。
                                                               cluster) 和不做聚类 (Gate-conv) 直接估计 mask 分
             3.2 参数设置                                          离,运行50个epoch,实验结果如表2所示。

                 该网络的编码器与解码器即一维卷积,卷积核
                                                                表 2   高维空间聚类和不做聚类方法的分离结果对比
             大小均为20,网络在4 s长的片段上进行训练。初始
                                                                 Table 2  Comparison of separation results
             学习速率设置为 1 × 10       −3 ,如果在连续 3 个时期内
                                                                 between high-dimensional spatial clustering
             验证集的准确性没有提高,学习率将减半,优化器使
                                                                 and no clustering methods
             用Adam进行训练       [17] 。
                 通过信号失真比改善 (Signal distortion ratio                 模型结构       迭代次数/epoch SDRi/dB SI-SNRi/dB
             improvement, SDRi) [18]  和尺度不变信噪比改善                   Gate-conv        50       15.27     14.88
             (Scale invariant SNR improvement, SI-SNRi) [8]  来  Gate-conv cluser    50       16.30    15.89
             评价该方法,其中指标数值越大表明语声分离性能
                                                                   从表 2 可以看出,在 Gate-conv 后端进行聚类
             越好。
                                                               (Gate-conv cluster),其中 SDRi提升了 1.03 dB,SI-
             3.3 双支路非线性门控卷积的验证分析
                                                               SNRi 提升 1.01 dB。经过实验研究发现,Gate-conv
                 为了验证双支路非线性门控卷积对于 TCN 结
                                                               cluster 在高维空间中聚类,通过说话人分配和吸引
             构的改进作用,在后端均不添加聚类操作的情况
                                                               子进一步使网络训练每个说话人更长时间序列的
             下,Gate-conv 和 ConvTasNet,在 WSJ0-2mix 数据
                                                               特征向量表示,克服了 ConvTasNet 语声建模的短
             集下,使用相同实验设置,分别使用 Gate-conv和使
                                                               时依赖性问题,进一步提高了语声分离的性能。
             用 ConvTasNet 的 1-D-conv 再进行聚类后端分离,
                                                               3.5  最优嵌入空间维数研究
             运行50个epoch,实验结果如表1所示。
                                                                   在门控卷积网络后端使用嵌入尺寸参数 em-
                表 1  使用非线性双支路门控卷积与一维卷积的
                                                               bed_size为σ 的深度神经网络生成高维度的特征空
                分离结果对比
                                                               间,在WSJ0-2mix数据集下,使用相同实验设置,运
                Table 1 Comparison of separation results
                                                               行 50 个 epoch 进行分离,进行最优嵌入空间维数的
                using nonlinear bipartite gated convolu-
                                                               研究,实验结果如表3所示。
                tion with one-dimensional convolution
                                                                     表 3   不同嵌入空间维数的分离结果对比
                模型结构      迭代次数/epoch SDRi/dB   SI-SNRi/dB
                                                                  Table 3 Comparison of separation results
                1-D-conv       50       14.92     14.56
                                                                  for different embedding space dimensions
               Gate-conv      50        15.27     14.88
                                                                 嵌入空间维数 迭代次数/epoch SDRi/dB SI-SNRi/dB
                 从表 1 可以看出,在基线原有 ConvTasNet 中
                                                                     10          50        16.07     15.65
             1-D-conv 上增加双支路非线性门控激活后的 Gate-
                                                                     15          50        16.19     15.76
             conv,分离结果均有不同程度的提升,其中 SDRi 提
                                                                     20          50        16.30    15.89
             升了 0.35 dB,SI-SNRi 提升 0.32 dB。由此可得出,
                                                                     25          50        16.21     15.78
             非线性双支路门控卷积提高了卷积网络的非线性
                                                                     30          50        16.16     15.75
             表达能力,在序列建模工作控制更多的信息流,能够
   206   207   208   209   210   211   212   213   214   215   216