Page 209 - 《应用声学)》2023年第5期
P. 209

第 42 卷 第 5 期              罗宇等: 一种基于聚类的门控卷积网络语声分离方法                                         1101


             1.1 Gate-conv cluster                             中,在高维度的特征空间中进行聚类,估计出目标
                 Gate-conv cluster 是 在 convtasnet 的 tcn 结      语声的掩蔽值;后利用编码后的混合语声与估计出
             构  [7−8,10]  上提出的编码器 -解码器框架,编码器                   来的掩蔽值做点乘,最后通过一维转置卷积重构得
             是一维卷积,并行编码计算混合语声的时域特征;然                           到纯净的语声信号。图 1 显示了搭建的 Gate-conv
             后将其送入一维非线性 Gate-conv堆叠的嵌入网络                       cluster框架以及gate-conv结构。


                  ᎄᆊ٨                                                ᝍᆊ٨       skip-connection  ;      ᣥѣ
                               Gate-   Gate-  d/  Gate-  Linear
                               conv    conv   n֓  conv                                    Sigmoid
                               Gate-   Gate-  d/  Gate-                           1×1 Conv  1×1 Conv
                               conv    conv      conv   Embedding
                                                                                   Norm     Norm
                               Gate-   Gate-     Gate-
                 1-D Conv      conv    conv  d/  conv  Clustering    1-D          PReLU    PReLU
                                                                    TransConv
                                                                                   Deepwise  Deepwise
                                                                                    Conv    Conv
                             1×1-Conv
                                                         Mask
                                                                                        Norm
                              Layer-
                              Norm                                                      PReLU
                                          ѬሏᎪፏ                                           ;
                                                                                            Sigmoid
                                                                                  1×1 Conv  1×1 Conv


                          Gate-conv  ᫃଍Ԅሥ  Embedding  ࢦК  Clustering  ᐑዝ                 ᣥК
                               (a) Gate-conv cluster಴౶                             (b) Gate-convፇ౞

                                          图 1  Gate-conv cluster 框架及 gate-conv 结构
                                 Fig. 1 Block diagram of Gate-conv cluster and Gate-conv structure

             1.2 编码器                                           表示不同的膨胀因子,特征映射首先通过一个通
                                                               道数为 256 的 1 ∗ 1_conv 块,然后是 8 个剩余的通
                   Encoder
               y[t] −−−−−→ Y conv = ReLU(Conv1D(y[t])), (2)
                                                               道数为 512 的Gate-conv块,膨胀率为 1, 2, · · · , 128,
             其 中, Y conv 是 混 合 信 号 y[t] 的 时 域 特 征 表 示,         重复 4 次;其中 Gate-conv 中卷积核大小为 3,步长
             ReLU(·) 是用于确保非负输出的元素整流线性单                         stride为1。其中在每两个卷积操作之间添加激活函
             元;Conv1D(·)是由可学习权重参数的1 ∗ 1卷积核。                    数和归一化,经过 depthwise_conv 后的 1 ∗ 1_conv

                                                               的 Output 作为下一个门控卷积块的输入;剩下的
             1.3 Gate-conv
                                                               1 ∗ 1_conv 块的跳跃连接总和作为 Gate-conv 结构
                 分离网络由门控卷积网络和嵌入空间中的聚
                                                               块的输出     [8] 。
             类组成。受 Chimera 聚类集群框架             [6]  启发,语声
             经过深度神经网络,结合门控支路提取的非线性                             1.4  嵌入空间中的聚类
             信息对于在聚类空间中时频单元生成掩码具有更                                 在门控卷积网络后端搭建了聚类框架,经过门
             好的性能。Gate-conv在ConvTasNet中一维卷积块                   控卷积网络的混合声音的特征单元,被投射到一
             1-D-conv中增加了非线性门控卷积支路               [8,11] ,每个    个高维空间      [12] 。特征单元在和不同源分配生成的
             一维卷积模块增加两个 Sigmoid 门,一个对应于一                       吸引子距离计算上,任意两点的距离都可能极为相
             维卷积模块中的第一个 1 ∗ 1 卷积层即 1 ∗ 1_conv,                 近,导致难以将其区分出来;同时高维数据集的簇
             另一个对应于从深度可分离卷积 depthwise_conv                     可能存在于不同的维度集合里。所以确定一定维数
             到输出 1*1_conv 的所有层,depthwise_conv 中的               的特征空间很有必要,特征空间使用嵌入尺寸参数
             卷积层是大小为 K 的卷积核。                                   embed_size为σ 的深度神经网络实现。为了将每个
                 Gate-conv 结构块中,门控卷积块的不同颜色                     嵌入的特征单元分配给混合特征矩阵中的不同说
   204   205   206   207   208   209   210   211   212   213   214