Page 210 - 《应用声学)》2023年第5期
P. 210

1102                                                                                 2023 年 9 月


             话人,沿着时间追踪嵌入空间中说话人的质心,其                            更新吸引子      [13] 。
             中来自不同声源的质心被称为吸引子点 A t (i, σ, τ),                      其中分离模型U(·),在特征空间中,属于同一源
             i 是说话人的源分配,σ 是特征空间维度,τ 是时间                        的所有嵌入的特征单元表示会互相吸引                    [14] 。嵌入
             步长,该吸引子点用于确定当前说话人的特征向量                            特征空间中的特征单元和每个吸引子之间的距离
             分配。                                               (通常表示为点积) 决定了该特征单元的源分配,然
                 吸引子的位置在每个时间步都会更新。首先,                          后使用该分配为每个说话人定义一个掩码,该掩码
             吸引子的先前位置用于确定当前特征单元的说话                             乘以经过一维卷积编码器后的混合源语声的时域
             人分配。然后通过聚类操作,基于先前吸引子的加                            特征表示来恢复该源。图 2 显示了嵌入空间中聚类
             权平均值和说话人分配定义的当前特征向量中心                             来恢复源信号的操作。

                         ຉՌឦܦ                                                             Ѭሏឦܦ
                                                                                           ᝍᆊ٨

                          ᎄᆊ٨                                                          spk1
                                    Gate-                         Speaker            Mask
                                              Linear  Embeeding            Attractors
                                     conv                        assignment


                                     Gate-                        Speaker
                                     conv     Linear  Embeeding  assignment  Attractors  Mask

                                                                                          spk2
                                                      Speaker
                                      Linear  ጳভࡏ             ឭភ̡Ѭᦡ     Attractors  ծळߕ
                                                     assignment
                                             图 2  嵌入空间中聚类分离源信号示意图
                         Fig. 2 Schematic diagram of clustering separated source signals in the embedding space

                 其中,U(·) 是由分离网络参数 σ 定义的掩码估                     2 训练目标
             计模型。
                                                                   本文以尺度不变信噪比为训练目标                 [8] 。网络训
                      ˆ
                              ˆ
                     M c = U(X c (t, k); A t (i, σ, τ); σ).  (3)
                                                               练目标函数是标准信号重建误差,这使得在训练和
                 在基于掩蔽 Mask 的解决方案中             [15−16] ,根据     测试阶段都可以进行端到端操作。
                                                    ˆ
             式 (4) 推导出恢复源信号 X c 的特征向量 X c (t, k)                                             
      
 2
                                                                                             
 ⟨ˆ s, s⟩
                                                                                             
     s
                         ˆ
             由估计掩码 M c 与混合信号经过编码器后的 Y conv                                                    ⟨s, s⟩
                                                                                                      
 , (6)
                                                                L loss = − (SI-SNR) = −10 lg 
         2
             点乘得到。                                                                         
 ⟨ˆ s, s⟩
                                                                                           
     s − ˆ s
                                                                                           
  ⟨s, s⟩
                                  ˆ
                       ˆ
                       X c (t, k) = M c (t, k) ⊙ Y conv ,  (4)
                                                               其中, ˆ s 和 s 分别是估计的语声信号和干净的语声
             其中,t 和 k 分别是时间步长和特征向量索引,而                         信号;⟨·⟩代表向量之间的点积。
             Y conv 通过混合信号 y[t] 经过一维卷积编码的潜在
                        ˆ
             特征表示;M c (t, k) 是为说话人 c 通过聚类生成的                   3 实验结果及分析
             掩码;⊙是元素乘法运算。
                                                               3.1  数据集设置
             1.5 解码器
                                                                   实验采用的原始语声数据集来自 WSJ0 语料
                 为了在时域中重建信号,估计源信号的特征向
                                                               库 [8] 。利用该语料库创建双说话人混合数据集
                ˆ
             量X c (t, k)送入一维转置卷积Conv1D(·)中。
                                                               WSJ0-2mix:首先从 WSJ0 语料库中 si_tr_s 文件
                    Decoder
                                                ˆ
              X c [t] ←−−−−− ReLU(TransConv1D(X c (t, k))).    夹中随机选择两个说话者的语声,并以 −5 ∼ 5 dB
                                                        (5)    之间随机选择的信噪比(Signal to noise ratio, SNR)
   205   206   207   208   209   210   211   212   213   214   215