Page 109 - 《应用声学》2019年第6期
P. 109
第 38 卷 第 6 期 王全东等: 基于深度神经网络的水声信号恢复方法研究 1011
比表 1 的第三行和第四行,单阵元 DNN 输出 SNR 与 LPS 一起训练,能提升 DNN 估计 LPS 的鲁棒性,
比 CBF 高 5 dB 以上的同时,显著降低了功率估计 更好地恢复目标信号功率。下面简述一下IRM正则
的MSE,表明本处理方法对测试信号有较强的泛化 项提高性能的原因。类似于文献 [12] 中在目标函数
能力。 中加入正则项来提高 MVDR 的鲁棒性,本文式 (5)、
式 (6)、式 (7) 加入右边第二项的正则化项后使网络
500
450 进行多目标或多任务学习,由于IRM特征的物理意
20
400
义为归一化的输入信噪比,所以相当于在估计 LPS
350
特征这个主要任务上多加了一个估计输入信噪比
ᮠဋ/Hz 250 15 的附加任务。在机器学习理论中,通常来讲,用共享
300
200
的神经网络来同时学习一个或多个额外的适当任
150
10
100 务可以同时提高全部任务的学习能力,而在实际使
50 用网络时可以将用于学习额外任务的参数去除。总
0
60 120 180 240 300 360 的来说,IRM 特征估计作为正则项可以限制深度神
ᫎ/s
经网络参数,引入损失函数的归纳偏差,迫使学习
图 11 0 dB 下单阵元 DNN 输出的对数功率谱
算法在两个任务的交叉表征区域找到最终解,避免
Fig. 11 The LPS output by the single-sensor DNN
单任务下在一个更大表征区域求得局部最优解,因
at 0 dB
而可以降低网络过拟合风险使得网络更好、更快地
3.3 阵列DNN 收敛。
根据第2.1的分析,由于DNN输入维数的限制, 3.5 两阶段融合DNN
在利用较多阵元数时,需要降低扩帧的窗长来保
根据第 3.3 节的分析,为了全面利用八个阵
证 DNN 训练的稳定。因此本实验研究了利用两个
元信号的时间和空间信息,本文训练了两阶段
阵元 (阵元 4 和阵元 5,记为 ‘ch45’)、四个阵元 (阵元
融合系统。第一阶段训练了两个增强 DNN,分
3 ∼ 阵元6,记为‘ch3456’)和八个阵元(阵元1 ∼ 阵
别为 ‘ch3456’ 和 ‘ch1234’(由阵元 1 ∼ 阵元 4 训练)。
元 8,记为 ‘8ch’) 的情况,分别采用窗长 R 等于 5、3、
‘ch1234’ 与 ‘ch3456’ 性能接近,因此未列入表 1。第
1,均没有训练 IRM 特征,标记为 ‘noIRM’。三者的
二阶段中,将第一阶段的两个 DNN 的 LPS 输出和
输出结果列于表 1 的第六、第七、第八行,可以看出
所有八个阵元的带噪信号拼接在一起,形成一个维
三个阵列 DNN 的恢复效果均优于单阵元 DNN,表
数为 257 × 10的向量作为输入,输出为 LPS和IRM
明使用阵元 DNN 利用了阵列的空间信息,提高了
特征,共 514 维。图 12 为两阶段 DNN 处理 0 dB 测
DNN 估计的准确度。四阵元系统 ‘ch3456’ 的输出
试信号后的对数功率谱,可以看到图 7 中目标信
SNR与两阵元系统和八阵元系统相当,但是取得了
号在 50 ∼ 100 Hz 之间、360 Hz 和 420 Hz 处的线
三者之中最小的MSE,更好地估计了目标波形的功
谱在图 12 中得到了很好的突出和保留,目标信号
率大小。这说明在阵列DNN的框架下,阵元数越多
在 180 ∼ 240 Hz 之间的连续谱也得到了有效恢复,
不一定越好,综合利用空间信息和时间信息才能取
说明本方法对目标信号和噪声的频域特性没有限
得更佳的恢复效果。
制,因而适用性较好。两阶段 DNN 的平均输出参
3.4 单目标训练对比多目标训练 数结果如表 1 的最后一行所示,记为 ‘2stage’。特征
在 DNN 输出层不仅可以输出目标信号 LPS, 融合后,其 MSE 略好于 ‘ch3456’,但输出 SNR 优于
也可以估计IRM,即输出总维数为514。表1的第五 ‘ch3456’ 1 dB 以上。这说明,本方法能在两个四
行和第九行为单阵元 DNN 和八阵元 DNN 同时训 阵元阵列 DNN 基础上,进一步综合利用八个阵元
练 LPS 和 IRM 的结果,标记为 ‘IRM’。在同等情况 的时间空间信息,取得了所有单阵元和阵列对比算
下,标记 ‘IRM’ 的系统在保持输出 SNR相当时输出 法中最佳的信号恢复效果。其原因为,在融合阶段
MSE 的要明显优于标记 ‘noIRM’ 的 DNN 系统,说 DNN的映射能力被再次利用,由于每个阵元的带噪
明多目标映射时,IRM 作为目标函数中的正则项, 信号中含有一部分较高信噪比的时频点,将其与降