Page 161 - 《应用声学》2025年第1期

P. 161

第 44 卷第 1 期袁博等：信号分离在深海定位中的应用 157

中恢复源信号的相位信息。作为编码器输出的一部
1 建模
分，与幅度谱组成了混合信号在特征表示上的完整
信号分离模型主要有三个处理阶段组成，分别描述。相位差谱将混合信号的相位信息与参考信号
的相位信息进行比较所得的差分谱，其表现为一个
是编码器、分离和解码器。首先将信号输入到编码
复数张量，用于恢复分离后的源信号的相位信息。
器模块，使其转换到中间特征空间。之后通过对编
码器输出应用一组加权函数 (掩码) 实现信号分离。信号分离是逐帧分离，对于每帧的分离是通
过估计掩码 [7] (mask) m i ∈ R 1×N 其中 m i ∈ [0, 1]，
然后通过解码器将分离后信后重构波形。
在分离问题中，将带噪信号 [7] 描述如下： i = 1, 2, · · · 。在混合信号中的多个源信号经常在时
域和频域互相叠加，因此使用幅度谱掩蔽方法从而
x(t) = s(t) + n(t), (1)
计算每个信号在每个时间和频率上的贡献大小，其
其中，s(t) 为干净信号，n(t) 为噪声信号，目标是从作为一种二进制掩蔽，用于控制每个时间和频率上
x(t)中将s(t)分离出来。的源信号是否应该保留。之后将掩码乘以带噪信号，
将输入的带噪信号分为长度为 L 的信号片段，得到声源的表示：
表示为 x k ∈ R 1×L ，其中 k = 1, · · · , T 为每一段
d i = ω ⊙ m i , (6)
的索引，T 为总段数。之后 x k 通过一维卷积网络
ω ∈ R 1×L 后，用矩阵乘法表示为其中，⊙表示基于元素的乘法。
掩码是每个时间步和频带上的一个二元值，用
ω = H(xU), (2)
于衡量该时间步和频带上分离后的信号是否应该
其中，U ∈ R N×L 包含 N 个长度为 L 的向量，H(·) 保留。掩码乘以带噪信号将带噪信号在每个时间
是非线性函数，通常选取 (ReLU) 和 (sigmoid)，步和频带上按照掩码中指示的方式进行加权取舍，
ReLU 保证函数为非负。编码器使用一维的转置得到分离后的信号。具体而言，分离模型输出包
卷积运算，其矩阵乘法表示为括一个掩码矩阵和一个分离矩阵，掩码矩阵中每

ˆ x = ωV, (3) 个元素值为 0 或 1，0 表示该时间步和频带上的信
号应该被舍弃，1 表示该时间步和频带的信号应该
其中，x 的重构为 ˆx ∈ R 1×L ，解码器的基函数为
保留。
V ∈ R N×L ，其中每个基函数的长度为 L，之后将重
声源波形 ˆs i (i=1,2,…)由解码器重构：
构后的信号经过求和得到最终波形。
使用编码器可以使得卷积神经网络自动的学 ˆ s i = d i V. (7)
习信号的时间和频率特征，原始信号经过一组卷积
编码器 -解码器 [9] 这一体系结构可以很好地重构输
层进行特征提取，之后通过池化、归一化等操作将
入混合信号这一假设。
特征表示逐渐降维、聚合，得到时间和频率上的层
在分离模块，基于时间卷积网络 (Temporal
级特征表示。这些特征包含两部分：(1)幅度谱：
convolutional network, TCN)，使用一种全卷积分
A i,j (t, f) = |Y i,j (t, f)|, (4) 离模块，它是由堆叠的一维卷积模块组成 [10] 。其
由1-d 扩张卷积块组成。TCN结构每一层都是由具
其中，A i,j (t, f) 表示混合信号幅度谱，i 表示是第 i
有递增扩张因子的一维卷积块组成，这样会使得扩
个混合声频，j 表示是第 j 个频带，t 表示时间，f 表
张因子呈指数增加，可以确保网络具有足够大的感
示频率。(2)相位差谱：
受野，使得网络如放大镜一般对信号的每一帧进行
∆Φ i,j (t, f) = ∠Y i,j (t, f) − ∠R j (t, f), (5)
放大处理。对每个卷积模块的输入进行相应的零填
其中，∆Φ i,j (t, f) 表示相位差谱，∠Y i,j (t, f) 表示混充，确保输出长度与输入长度相同。之后TCN的输
合信号相位，∠R j (t, f) 为参考信号相位。其中幅度出传递到一个 1×1 的卷积块，用于估计掩码。使用
谱用于后续的源信号分离操作，相位差谱是混合信 1×1的卷积块和非线性激活函数一起估计目标声源
号在时间和频率上的一个表示形式，用于信号分离的掩码向量。

156 157 158 159 160 161 162 163 164 165 166