Page 208 - 《应用声学)》2023年第5期
P. 208
1100 2023 年 9 月
引子,因此计算开销增大。Wang 等 [6] 提出了嵌合
0 引言
体网络 (Chimera),该结构将深度聚类与掩码推理
语声分离任务源于鸡尾酒会问题 [1] 。传统学习 网络结合在多目标训练方案中,提出了多个备选损
方法存在计算复杂度高和区分性训练困难的问题。 失函数来训练深度聚类网络,在训练掩码推理网络
与上述相比,深度学习为语声分离任务提供了快速 以实现最佳分离时,深度聚类损失可作为正则化项,
准确的方法,其高效的建模能力将掩码推断视为一 防止训练过拟合。
个分类问题。在以往的频域语声分离中,需要考虑 然而以上基于频域的聚类方法存在如下缺点:
分离语声的说话人排列问题 [2] 。因为频域中将语声 第一,定义的目标损失函数是在嵌入式向量上,而
分帧,再进行语声分离,可能会将一个说话人的语声 不是真正的目标语声的幅值谱,从而无法进行端到
帧分离到另一个说话人上,造成网络分离的语声信 端训练;由于损失函数中嵌入式向量和目标语声存
息混乱。深度聚类是最早基于深度学习的语声分离 在一定的误差,会影响分离性能。第二,没有考虑对
体系结构,使用经过区别训练的嵌入,在高维嵌入 实际混合语声信号建模,忽略了语声信号潜在特征
的特征空间中进行聚类来解决语声分离输出排列 参考,而在后续 Luo 等 [7] 提出的时域声频分离网络
问题。 (Time-domain audio separation network, TasNet)
说话人聚类的语声分离可以看作是一种矩阵 直接对时域语声波形建模,避免重建源相位问题
分解任务,输入的混合语声作为输入矩阵,是若
的同时,将特征提取与分离一起隐含在网络体系结
干个输出矩阵之和,基于此理论来利用掩码方法。
构中。
深度聚类训练目标是理想二值掩码 (Ideal binary
时域卷积网络 (ConvTasNet) 是一种全卷积声
mask, IBM),每个时频单元对应一个源信号,由
频分离网络,在序列建模和声频处理任务中展现了
此可将掩码估计等同于时频单元聚类分类的问题。
优越的性能 [8] 。本文利用 ConvTasNet 的时域卷积
陆续有很多研究人员采取聚类方法来进行说话人
网络 (Temporal convolutional networks, TCN) 结
分离。Hershey等 [3] 提出了深度聚类(Deep cluster-
构,设计了基于聚类的门控卷积网络 (Gate-conv
ing, DPCL),训练了一个深层网络,将对比嵌入向
cluster) 框架,编解码器分别是一维卷积和一维转
量分配给频谱图的每个时频区域,输出标签的匹
置卷积,在分离网络中,用堆叠的门控卷积 (Gate-
配转换为亲和力矩阵的匹配,最小化同一人的时
conv) 来提取语声信号的深层次特征;同时在特
频单元嵌入向量之间的距离,最大化不同人之间
征空间中搭建聚类模块,对长时语声特征进行映
的距离,其高度依赖于嵌入形成的低秩成对亲和
射分离。聚类定义的损失函数是负尺度不变信源
力矩阵。Chen 等 [4] 提出了深度吸引子网络 (Deep
噪声比 (-SISNR),对目标语声信号进行端到端训
attractor network, DANet),通过在混合信号的高
练。该框架很好地解决了传统聚类方法无法做到端
维嵌入空间中创建吸引子点,吸引子是由嵌入向
量动态计算得到,将每个声源对应的时频单元聚 到端训练和时域卷积网络语声建模中短时依赖的
集在一起,通过学习聚类中心来对不同的说话人 问题。
生成不同的掩码,这样就可以得到一种可学习的聚
类中心,与 DPCL 相比更加灵活,得到的结果也更 1 模型设计及方法介绍
加理想。Luo等 [5] 提出了独立说话人的吸引子网络
(Speaker-independent speech separation with deep 语声分离是指从给定的混合语声信号中提取
attractor network, ADANet),利用嵌入空间的一组 所有重叠的信号源 [9] 。对于给定的线性混合单通道
辅助点 (锚定点),使用嵌入和每个吸引子之间的相 信号 y[t],单通道语声分离提取所有 C 个说话人的
似性来估计混合物中每个源的掩码。ADANet 解决 源信号为X c [t],c为说话人索引。
了DANet中两种创建吸引子方法的问题,但是网络
C
引入一个期望最大化 (Expectation maximization, y[t] = ∑ X c [t], c = 1, · · · , C. (1)
EM) 迭代过程,需要对于每一种取法计算锚框和吸 c=1