Page 209 - 《应用声学)》2023年第5期
P. 209
第 42 卷 第 5 期 罗宇等: 一种基于聚类的门控卷积网络语声分离方法 1101
1.1 Gate-conv cluster 中,在高维度的特征空间中进行聚类,估计出目标
Gate-conv cluster 是 在 convtasnet 的 tcn 结 语声的掩蔽值;后利用编码后的混合语声与估计出
构 [7−8,10] 上提出的编码器 -解码器框架,编码器 来的掩蔽值做点乘,最后通过一维转置卷积重构得
是一维卷积,并行编码计算混合语声的时域特征;然 到纯净的语声信号。图 1 显示了搭建的 Gate-conv
后将其送入一维非线性 Gate-conv堆叠的嵌入网络 cluster框架以及gate-conv结构。
ᎄᆊ٨ ᝍᆊ٨ skip-connection ; ᣥѣ
Gate- Gate- d/ Gate- Linear
conv conv n֓ conv Sigmoid
Gate- Gate- d/ Gate- 1×1 Conv 1×1 Conv
conv conv conv Embedding
Norm Norm
Gate- Gate- Gate-
1-D Conv conv conv d/ conv Clustering 1-D PReLU PReLU
TransConv
Deepwise Deepwise
Conv Conv
1×1-Conv
Mask
Norm
Layer-
Norm PReLU
ѬሏᎪፏ ;
Sigmoid
1×1 Conv 1×1 Conv
Gate-conv ᫃Ԅሥ Embedding ࢦК Clustering ᐑዝ ᣥК
(a) Gate-conv cluster (b) Gate-convፇ
图 1 Gate-conv cluster 框架及 gate-conv 结构
Fig. 1 Block diagram of Gate-conv cluster and Gate-conv structure
1.2 编码器 表示不同的膨胀因子,特征映射首先通过一个通
道数为 256 的 1 ∗ 1_conv 块,然后是 8 个剩余的通
Encoder
y[t] −−−−−→ Y conv = ReLU(Conv1D(y[t])), (2)
道数为 512 的Gate-conv块,膨胀率为 1, 2, · · · , 128,
其 中, Y conv 是 混 合 信 号 y[t] 的 时 域 特 征 表 示, 重复 4 次;其中 Gate-conv 中卷积核大小为 3,步长
ReLU(·) 是用于确保非负输出的元素整流线性单 stride为1。其中在每两个卷积操作之间添加激活函
元;Conv1D(·)是由可学习权重参数的1 ∗ 1卷积核。 数和归一化,经过 depthwise_conv 后的 1 ∗ 1_conv
的 Output 作为下一个门控卷积块的输入;剩下的
1.3 Gate-conv
1 ∗ 1_conv 块的跳跃连接总和作为 Gate-conv 结构
分离网络由门控卷积网络和嵌入空间中的聚
块的输出 [8] 。
类组成。受 Chimera 聚类集群框架 [6] 启发,语声
经过深度神经网络,结合门控支路提取的非线性 1.4 嵌入空间中的聚类
信息对于在聚类空间中时频单元生成掩码具有更 在门控卷积网络后端搭建了聚类框架,经过门
好的性能。Gate-conv在ConvTasNet中一维卷积块 控卷积网络的混合声音的特征单元,被投射到一
1-D-conv中增加了非线性门控卷积支路 [8,11] ,每个 个高维空间 [12] 。特征单元在和不同源分配生成的
一维卷积模块增加两个 Sigmoid 门,一个对应于一 吸引子距离计算上,任意两点的距离都可能极为相
维卷积模块中的第一个 1 ∗ 1 卷积层即 1 ∗ 1_conv, 近,导致难以将其区分出来;同时高维数据集的簇
另一个对应于从深度可分离卷积 depthwise_conv 可能存在于不同的维度集合里。所以确定一定维数
到输出 1*1_conv 的所有层,depthwise_conv 中的 的特征空间很有必要,特征空间使用嵌入尺寸参数
卷积层是大小为 K 的卷积核。 embed_size为σ 的深度神经网络实现。为了将每个
Gate-conv 结构块中,门控卷积块的不同颜色 嵌入的特征单元分配给混合特征矩阵中的不同说