Page 109 - 《应用声学》2019年第6期
P. 109

第 38 卷 第 6 期             王全东等: 基于深度神经网络的水声信号恢复方法研究                                         1011


             比表 1 的第三行和第四行,单阵元 DNN 输出 SNR                      与 LPS 一起训练,能提升 DNN 估计 LPS 的鲁棒性,
             比 CBF 高 5 dB 以上的同时,显著降低了功率估计                      更好地恢复目标信号功率。下面简述一下IRM正则
             的MSE,表明本处理方法对测试信号有较强的泛化                           项提高性能的原因。类似于文献 [12] 中在目标函数
             能力。                                               中加入正则项来提高 MVDR 的鲁棒性,本文式 (5)、
                                                               式 (6)、式 (7) 加入右边第二项的正则化项后使网络
                    500
                    450                                        进行多目标或多任务学习,由于IRM特征的物理意
                                                    20
                    400
                                                               义为归一化的输入信噪比,所以相当于在估计 LPS
                    350
                                                               特征这个主要任务上多加了一个估计输入信噪比
                   ᮠဋ/Hz  250                       15         的附加任务。在机器学习理论中,通常来讲,用共享
                    300
                    200
                                                               的神经网络来同时学习一个或多个额外的适当任
                    150
                                                    10
                    100                                        务可以同时提高全部任务的学习能力,而在实际使
                     50                                        用网络时可以将用于学习额外任务的参数去除。总
                     0
                          60  120  180  240  300  360          的来说,IRM 特征估计作为正则项可以限制深度神
                                 ௑ᫎ/s
                                                               经网络参数,引入损失函数的归纳偏差,迫使学习
                 图 11  0 dB 下单阵元 DNN 输出的对数功率谱
                                                               算法在两个任务的交叉表征区域找到最终解,避免
               Fig. 11 The LPS output by the single-sensor DNN
                                                               单任务下在一个更大表征区域求得局部最优解,因
               at 0 dB
                                                               而可以降低网络过拟合风险使得网络更好、更快地
             3.3 阵列DNN                                         收敛。
                 根据第2.1的分析,由于DNN输入维数的限制,                       3.5  两阶段融合DNN
             在利用较多阵元数时,需要降低扩帧的窗长来保
                                                                   根据第 3.3 节的分析,为了全面利用八个阵
             证 DNN 训练的稳定。因此本实验研究了利用两个
                                                               元信号的时间和空间信息,本文训练了两阶段
             阵元 (阵元 4 和阵元 5,记为 ‘ch45’)、四个阵元 (阵元
                                                               融合系统。第一阶段训练了两个增强 DNN,分
             3 ∼ 阵元6,记为‘ch3456’)和八个阵元(阵元1 ∼ 阵
                                                               别为 ‘ch3456’ 和 ‘ch1234’(由阵元 1 ∼ 阵元 4 训练)。
             元 8,记为 ‘8ch’) 的情况,分别采用窗长 R 等于 5、3、
                                                               ‘ch1234’ 与 ‘ch3456’ 性能接近,因此未列入表 1。第
             1,均没有训练 IRM 特征,标记为 ‘noIRM’。三者的
                                                               二阶段中,将第一阶段的两个 DNN 的 LPS 输出和
             输出结果列于表 1 的第六、第七、第八行,可以看出
                                                               所有八个阵元的带噪信号拼接在一起,形成一个维
             三个阵列 DNN 的恢复效果均优于单阵元 DNN,表
                                                               数为 257 × 10的向量作为输入,输出为 LPS和IRM
             明使用阵元 DNN 利用了阵列的空间信息,提高了
                                                               特征,共 514 维。图 12 为两阶段 DNN 处理 0 dB 测
             DNN 估计的准确度。四阵元系统 ‘ch3456’ 的输出
                                                               试信号后的对数功率谱,可以看到图 7 中目标信
             SNR与两阵元系统和八阵元系统相当,但是取得了
                                                               号在 50 ∼ 100 Hz 之间、360 Hz 和 420 Hz 处的线
             三者之中最小的MSE,更好地估计了目标波形的功
                                                               谱在图 12 中得到了很好的突出和保留,目标信号
             率大小。这说明在阵列DNN的框架下,阵元数越多
                                                               在 180 ∼ 240 Hz 之间的连续谱也得到了有效恢复,
             不一定越好,综合利用空间信息和时间信息才能取
                                                               说明本方法对目标信号和噪声的频域特性没有限
             得更佳的恢复效果。
                                                               制,因而适用性较好。两阶段 DNN 的平均输出参
             3.4 单目标训练对比多目标训练                                  数结果如表 1 的最后一行所示,记为 ‘2stage’。特征
                 在 DNN 输出层不仅可以输出目标信号 LPS,                      融合后,其 MSE 略好于 ‘ch3456’,但输出 SNR 优于
             也可以估计IRM,即输出总维数为514。表1的第五                         ‘ch3456’ 1 dB 以上。这说明,本方法能在两个四
             行和第九行为单阵元 DNN 和八阵元 DNN 同时训                        阵元阵列 DNN 基础上,进一步综合利用八个阵元
             练 LPS 和 IRM 的结果,标记为 ‘IRM’。在同等情况                   的时间空间信息,取得了所有单阵元和阵列对比算
             下,标记 ‘IRM’ 的系统在保持输出 SNR相当时输出                      法中最佳的信号恢复效果。其原因为,在融合阶段
             MSE 的要明显优于标记 ‘noIRM’ 的 DNN 系统,说                   DNN的映射能力被再次利用,由于每个阵元的带噪
             明多目标映射时,IRM 作为目标函数中的正则项,                          信号中含有一部分较高信噪比的时频点,将其与降
   104   105   106   107   108   109   110   111   112   113   114