Page 211 - 《应用声学)》2023年第5期
P. 211
第 42 卷 第 5 期 罗宇等: 一种基于聚类的门控卷积网络语声分离方法 1103
进行混合,建成包括 49 名男性和 51 名女性说话人、 有效地提取语声信号的深层次特征,对于语声分离
总量为30 h的训练集。此外,10 h验证集和5 h测试 效果有着一定的改善。
集来自 WSJ0 的 si_dt_05 文件夹和 si_et_05 文件
3.4 高维聚类和不做聚类直接估计 mask 方法的
夹的 16 个说话人的言语 (与训练集不同)。最后,经 验证分析
过8 kHz降采样,得到精度为16 bit的20000条语声
基于Gate-conv,在WSJ0-2mix数据集下,使用
训练集、5000 条语声验证集、3000 条语声数据测试
相同实验设置,分别进行高维空间聚类 (Gate-conv
集 [3] 。
cluster) 和不做聚类 (Gate-conv) 直接估计 mask 分
3.2 参数设置 离,运行50个epoch,实验结果如表2所示。
该网络的编码器与解码器即一维卷积,卷积核
表 2 高维空间聚类和不做聚类方法的分离结果对比
大小均为20,网络在4 s长的片段上进行训练。初始
Table 2 Comparison of separation results
学习速率设置为 1 × 10 −3 ,如果在连续 3 个时期内
between high-dimensional spatial clustering
验证集的准确性没有提高,学习率将减半,优化器使
and no clustering methods
用Adam进行训练 [17] 。
通过信号失真比改善 (Signal distortion ratio 模型结构 迭代次数/epoch SDRi/dB SI-SNRi/dB
improvement, SDRi) [18] 和尺度不变信噪比改善 Gate-conv 50 15.27 14.88
(Scale invariant SNR improvement, SI-SNRi) [8] 来 Gate-conv cluser 50 16.30 15.89
评价该方法,其中指标数值越大表明语声分离性能
从表 2 可以看出,在 Gate-conv 后端进行聚类
越好。
(Gate-conv cluster),其中 SDRi提升了 1.03 dB,SI-
3.3 双支路非线性门控卷积的验证分析
SNRi 提升 1.01 dB。经过实验研究发现,Gate-conv
为了验证双支路非线性门控卷积对于 TCN 结
cluster 在高维空间中聚类,通过说话人分配和吸引
构的改进作用,在后端均不添加聚类操作的情况
子进一步使网络训练每个说话人更长时间序列的
下,Gate-conv 和 ConvTasNet,在 WSJ0-2mix 数据
特征向量表示,克服了 ConvTasNet 语声建模的短
集下,使用相同实验设置,分别使用 Gate-conv和使
时依赖性问题,进一步提高了语声分离的性能。
用 ConvTasNet 的 1-D-conv 再进行聚类后端分离,
3.5 最优嵌入空间维数研究
运行50个epoch,实验结果如表1所示。
在门控卷积网络后端使用嵌入尺寸参数 em-
表 1 使用非线性双支路门控卷积与一维卷积的
bed_size为σ 的深度神经网络生成高维度的特征空
分离结果对比
间,在WSJ0-2mix数据集下,使用相同实验设置,运
Table 1 Comparison of separation results
行 50 个 epoch 进行分离,进行最优嵌入空间维数的
using nonlinear bipartite gated convolu-
研究,实验结果如表3所示。
tion with one-dimensional convolution
表 3 不同嵌入空间维数的分离结果对比
模型结构 迭代次数/epoch SDRi/dB SI-SNRi/dB
Table 3 Comparison of separation results
1-D-conv 50 14.92 14.56
for different embedding space dimensions
Gate-conv 50 15.27 14.88
嵌入空间维数 迭代次数/epoch SDRi/dB SI-SNRi/dB
从表 1 可以看出,在基线原有 ConvTasNet 中
10 50 16.07 15.65
1-D-conv 上增加双支路非线性门控激活后的 Gate-
15 50 16.19 15.76
conv,分离结果均有不同程度的提升,其中 SDRi 提
20 50 16.30 15.89
升了 0.35 dB,SI-SNRi 提升 0.32 dB。由此可得出,
25 50 16.21 15.78
非线性双支路门控卷积提高了卷积网络的非线性
30 50 16.16 15.75
表达能力,在序列建模工作控制更多的信息流,能够