Page 105 - 《应用声学》2019年第6期
P. 105
第 38 卷 第 6 期 王全东等: 基于深度神经网络的水声信号恢复方法研究 1007
ˆ
函数 E 为输出的 LPS 特征 S k 与纯净目标信号 LPS 在测试阶段,分别提取需降噪的信号的 LPS 和
¯
特征 S k 的均方误差 (Mean square error, MSE),表 相位,将带噪 LPS 输入 DNN处理,输出恢复的 LPS
示如下: 特征。有研究表明,带噪相位本身就是对纯净相位
NN 的一种最小均方误差估计 [2] ,因而可以将恢复的特
1 ∑
2
E =
ˆ ¯ ¯
, (3)
S k (Z k±τ , W , b) − S k
NN 2 征与带噪相位结合进行反短时傅里叶变换 (Inverse
k=1
ˆ
¯
其中,NN 为批处理个数,S k 和 S k 的维数均为 short-time Fourier transform, ISTFT),并用重叠相
¯
L, 分别为输出的 LPS 和纯净的 LPS,Z k±τ = 加法 [24] 恢复为时域波形。
¯
¯
¯
¯
[Z k−τ , Z k−τ+1 , · · · , Z k , Z k+1 , · · · , Z k+τ ] 为扩帧拼
¯
2 基于阵列的DNN模型
接的输入带噪 LPS 特征,扩帧窗长 R = 2τ + 1,
而 (W , b) 为 DNN 的权值和偏置的集合。扩帧能使 2.1 阵列DNN
DNN 同时学习时间和频域尺度上的信息,有助于 针对阵列接收信号降噪问题,本文提出阵列
DNN 分辨目标信号和噪声干扰。DNN 可以用随机 DNN 算法,将多个阵元的带噪特征拼接在一起形
梯度下降法来最小化目标函数直至收敛完成训练。 成一个长向量作为DNN输入。在受限的DNN宽度
在此基础上本文采用多目标(multi-target)训练,将 (隐层单元数) 下,若将 K (K 6 M) 个阵元信号分
IRM 特征作为正则项与纯净 LPS 一同作为输出以 别扩帧后再拼接,输入维数将达到L × R × K,可能
期进一步提高DNN的泛化能力 [27] 。L维IRM特征
会造成输入维数过高,难以完成稳定的训练或造成
定义如下: 过拟合。因此,本文控制了时间窗长的大小使得输
√
e ¯ S k 入维数在不同阵元数条件下可比,并研究了不同阵
IRM k = , (4)
¯
e ¯ S k + e N k 元数的降噪性能。可将任一阵元设置为参考阵元,
¯
其中,N k 代表噪声的 LPS 特征。IRM 的取值范围 从阵列带噪信号中估计参考阵元中的目标信号波
是[0,1],其物理意义为归一化的输入SNR。 形。利用多目标训练,阵列DNN的目标函数表示为
1 NN
2
∑
E Arr =
ˆ ¯ ¯
ଢԩ DNN NN
S k (Y k±τ , W , b) − S k
2
ᝫጷᬷ ྲढ़ ᝫጷ k=1
∑
ᝫጷ 1 NN
\ ¯
2
+α
IRM k (Y k±τ , W , b)−IRM k
, (6)
ត NN 2
k=1
¯
¯
¯
其中,当 K < M 时,Y k±τ = [Z 1,k±τ , · · · , Z K,k±τ ]
ଢԩ DNN ฉॎ᧘थ
¯
តᬷ ྲढ़ ܫေ 为K 个阵元各自扩帧后的拼接输入向量,Z i,k±τ 为
ࣜ٪ᄱͯ 扩帧的第 i 个阵元的带噪 LPS,当K = M 时,τ = 0
各阵元不进行扩帧操作。这里的 IRM 目标由参考
图 1 单阵元 DNN 处理框图
阵元的信号和噪声计算而来。由于不同阵元接收的
Fig. 1 The block diagram of the single-sensor
是来自不同水声传播路径混合的信号,所以它们具
DNN method
有相关且互补的特征,因此可以让 DNN 学习到阵
加入IRM后的目标函数变为 列中的空域信息。这种将多个阵元信号同时送入
1 NN
2 DNN 并以最小均方误差作为损失函数的处理方式
∑
E IRM =
ˆ ¯ ¯
S k (Z k±τ , W , b) − S k
NN 2 与波束形成类似,但不同点在于阵列 DNN 能够自
k=1
适应学习非线性的映射函数。
1 ∑
\
2
NN
¯
+α
IRM k (Z k±τ , W , b)−IRM k
, (5)
NN 2 2.2 两阶段融合DNN
k=1
\
其中,IRM k 为估计的 IRM 特征,α 为 IRM 目标权 如上文所述,阵元数较多情况下,阵列 DNN 仅
值。采用均值方差归一化变换 [28] 用全局的均值和 将一部分阵元信号进行拼接作为输入时可以进行
方差将输入向量和输出向量逐维变换为零均值、单 扩帧利用时间信息,但不能利用所有阵元的空间信
位方差的向量再传输给DNN进行训练。 息,而当阵列 DNN 拼接所有阵元的信号作为输入