Page 208 - 《应用声学)》2023年第5期
P. 208

1100                                                                                 2023 年 9 月


                                                               引子,因此计算开销增大。Wang 等               [6]  提出了嵌合
             0 引言
                                                               体网络 (Chimera),该结构将深度聚类与掩码推理
                 语声分离任务源于鸡尾酒会问题                [1] 。传统学习       网络结合在多目标训练方案中,提出了多个备选损
             方法存在计算复杂度高和区分性训练困难的问题。                            失函数来训练深度聚类网络,在训练掩码推理网络
             与上述相比,深度学习为语声分离任务提供了快速                            以实现最佳分离时,深度聚类损失可作为正则化项,
             准确的方法,其高效的建模能力将掩码推断视为一                            防止训练过拟合。
             个分类问题。在以往的频域语声分离中,需要考虑                                然而以上基于频域的聚类方法存在如下缺点:
             分离语声的说话人排列问题             [2] 。因为频域中将语声            第一,定义的目标损失函数是在嵌入式向量上,而
             分帧,再进行语声分离,可能会将一个说话人的语声                           不是真正的目标语声的幅值谱,从而无法进行端到
             帧分离到另一个说话人上,造成网络分离的语声信                            端训练;由于损失函数中嵌入式向量和目标语声存
             息混乱。深度聚类是最早基于深度学习的语声分离                            在一定的误差,会影响分离性能。第二,没有考虑对
             体系结构,使用经过区别训练的嵌入,在高维嵌入                            实际混合语声信号建模,忽略了语声信号潜在特征
             的特征空间中进行聚类来解决语声分离输出排列                             参考,而在后续 Luo 等       [7]  提出的时域声频分离网络
             问题。                                               (Time-domain audio separation network, TasNet)
                 说话人聚类的语声分离可以看作是一种矩阵                           直接对时域语声波形建模,避免重建源相位问题
             分解任务,输入的混合语声作为输入矩阵,是若
                                                               的同时,将特征提取与分离一起隐含在网络体系结
             干个输出矩阵之和,基于此理论来利用掩码方法。
                                                               构中。
             深度聚类训练目标是理想二值掩码 (Ideal binary
                                                                   时域卷积网络 (ConvTasNet) 是一种全卷积声
             mask, IBM),每个时频单元对应一个源信号,由
                                                               频分离网络,在序列建模和声频处理任务中展现了
             此可将掩码估计等同于时频单元聚类分类的问题。
                                                               优越的性能      [8] 。本文利用 ConvTasNet 的时域卷积
             陆续有很多研究人员采取聚类方法来进行说话人
                                                               网络 (Temporal convolutional networks, TCN) 结
             分离。Hershey等    [3]  提出了深度聚类(Deep cluster-
                                                               构,设计了基于聚类的门控卷积网络 (Gate-conv
             ing, DPCL),训练了一个深层网络,将对比嵌入向
                                                               cluster) 框架,编解码器分别是一维卷积和一维转
             量分配给频谱图的每个时频区域,输出标签的匹
                                                               置卷积,在分离网络中,用堆叠的门控卷积 (Gate-
             配转换为亲和力矩阵的匹配,最小化同一人的时
                                                               conv) 来提取语声信号的深层次特征;同时在特
             频单元嵌入向量之间的距离,最大化不同人之间
                                                               征空间中搭建聚类模块,对长时语声特征进行映
             的距离,其高度依赖于嵌入形成的低秩成对亲和
                                                               射分离。聚类定义的损失函数是负尺度不变信源
             力矩阵。Chen 等     [4]  提出了深度吸引子网络 (Deep
                                                               噪声比 (-SISNR),对目标语声信号进行端到端训
             attractor network, DANet),通过在混合信号的高
                                                               练。该框架很好地解决了传统聚类方法无法做到端
             维嵌入空间中创建吸引子点,吸引子是由嵌入向
             量动态计算得到,将每个声源对应的时频单元聚                             到端训练和时域卷积网络语声建模中短时依赖的
             集在一起,通过学习聚类中心来对不同的说话人                             问题。
             生成不同的掩码,这样就可以得到一种可学习的聚
             类中心,与 DPCL 相比更加灵活,得到的结果也更                         1 模型设计及方法介绍
             加理想。Luo等      [5]  提出了独立说话人的吸引子网络
             (Speaker-independent speech separation with deep      语声分离是指从给定的混合语声信号中提取
             attractor network, ADANet),利用嵌入空间的一组              所有重叠的信号源         [9] 。对于给定的线性混合单通道
             辅助点 (锚定点),使用嵌入和每个吸引子之间的相                          信号 y[t],单通道语声分离提取所有 C 个说话人的
             似性来估计混合物中每个源的掩码。ADANet 解决                         源信号为X c [t],c为说话人索引。
             了DANet中两种创建吸引子方法的问题,但是网络
                                                                              C
             引入一个期望最大化 (Expectation maximization,                      y[t] =  ∑ X c [t],  c = 1, · · · , C.  (1)
             EM) 迭代过程,需要对于每一种取法计算锚框和吸                                         c=1
   203   204   205   206   207   208   209   210   211   212   213