Page 161 - 《应用声学》2025年第1期
P. 161
第 44 卷 第 1 期 袁博等: 信号分离在深海定位中的应用 157
中恢复源信号的相位信息。作为编码器输出的一部
1 建模
分,与幅度谱组成了混合信号在特征表示上的完整
信号分离模型主要有三个处理阶段组成,分别 描述。相位差谱将混合信号的相位信息与参考信号
的相位信息进行比较所得的差分谱,其表现为一个
是编码器、分离和解码器。首先将信号输入到编码
复数张量,用于恢复分离后的源信号的相位信息。
器模块,使其转换到中间特征空间。之后通过对编
码器输出应用一组加权函数 (掩码) 实现信号分离。 信号分离是逐帧分离,对于每帧的分离是通
过估计掩码 [7] (mask) m i ∈ R 1×N 其中 m i ∈ [0, 1],
然后通过解码器将分离后信后重构波形。
在分离问题中,将带噪信号 [7] 描述如下: i = 1, 2, · · · 。在混合信号中的多个源信号经常在时
域和频域互相叠加,因此使用幅度谱掩蔽方法从而
x(t) = s(t) + n(t), (1)
计算每个信号在每个时间和频率上的贡献大小,其
其中,s(t) 为干净信号,n(t) 为噪声信号,目标是从 作为一种二进制掩蔽,用于控制每个时间和频率上
x(t)中将s(t)分离出来。 的源信号是否应该保留。之后将掩码乘以带噪信号,
将输入的带噪信号分为长度为 L 的信号片段, 得到声源的表示:
表示为 x k ∈ R 1×L ,其中 k = 1, · · · , T 为每一段
d i = ω ⊙ m i , (6)
的索引,T 为总段数。之后 x k 通过一维卷积网络
ω ∈ R 1×L 后,用矩阵乘法表示为 其中,⊙表示基于元素的乘法。
掩码是每个时间步和频带上的一个二元值,用
ω = H(xU), (2)
于衡量该时间步和频带上分离后的信号是否应该
其中,U ∈ R N×L 包含 N 个长度为 L 的向量,H(·) 保留。掩码乘以带噪信号将带噪信号在每个时间
是 非 线 性 函 数, 通 常 选 取 (ReLU) 和 (sigmoid), 步和频带上按照掩码中指示的方式进行加权取舍,
ReLU 保证函数为非负。编码器使用一维的转置 得到分离后的信号。具体而言,分离模型输出包
卷积运算,其矩阵乘法表示为 括一个掩码矩阵和一个分离矩阵,掩码矩阵中每
ˆ x = ωV, (3) 个元素值为 0 或 1,0 表示该时间步和频带上的信
号应该被舍弃,1 表示该时间步和频带的信号应该
其中,x 的重构为 ˆx ∈ R 1×L ,解码器的基函数为
保留。
V ∈ R N×L ,其中每个基函数的长度为 L,之后将重
声源波形 ˆs i (i=1,2,…)由解码器重构:
构后的信号经过求和得到最终波形。
使用编码器可以使得卷积神经网络自动的学 ˆ s i = d i V. (7)
习信号的时间和频率特征,原始信号经过一组卷积
编码器 -解码器 [9] 这一体系结构可以很好地重构输
层进行特征提取,之后通过池化、归一化等操作将
入混合信号这一假设。
特征表示逐渐降维、聚合,得到时间和频率上的层
在分离模块,基于时间卷积网络 (Temporal
级特征表示。这些特征包含两部分:(1)幅度谱:
convolutional network, TCN),使用一种全卷积分
A i,j (t, f) = |Y i,j (t, f)|, (4) 离模块,它是由堆叠的一维卷积模块组成 [10] 。其
由1-d 扩张卷积块组成。TCN结构每一层都是由具
其中,A i,j (t, f) 表示混合信号幅度谱,i 表示是第 i
有递增扩张因子的一维卷积块组成,这样会使得扩
个混合声频,j 表示是第 j 个频带,t 表示时间,f 表
张因子呈指数增加,可以确保网络具有足够大的感
示频率。(2)相位差谱:
受野,使得网络如放大镜一般对信号的每一帧进行
∆Φ i,j (t, f) = ∠Y i,j (t, f) − ∠R j (t, f), (5)
放大处理。对每个卷积模块的输入进行相应的零填
其中,∆Φ i,j (t, f) 表示相位差谱,∠Y i,j (t, f) 表示混 充,确保输出长度与输入长度相同。之后TCN的输
合信号相位,∠R j (t, f) 为参考信号相位。其中幅度 出传递到一个 1×1 的卷积块,用于估计掩码。使用
谱用于后续的源信号分离操作,相位差谱是混合信 1×1的卷积块和非线性激活函数一起估计目标声源
号在时间和频率上的一个表示形式,用于信号分离 的掩码向量。