Page 105 - 《应用声学》2019年第6期
P. 105

第 38 卷 第 6 期             王全东等: 基于深度神经网络的水声信号恢复方法研究                                         1007

                                     ˆ
             函数 E 为输出的 LPS 特征 S k 与纯净目标信号 LPS                      在测试阶段,分别提取需降噪的信号的 LPS 和
                  ¯
             特征 S k 的均方误差 (Mean square error, MSE),表           相位,将带噪 LPS 输入 DNN处理,输出恢复的 LPS
             示如下:                                              特征。有研究表明,带噪相位本身就是对纯净相位
                         NN                                    的一种最小均方误差估计             [2] ,因而可以将恢复的特
                      1  ∑ 
                      
 2
                E =          
 ˆ  ¯             ¯ 
  ,  (3)
                              S k (Z k±τ , W , b) − S k
                     NN                            2           征与带噪相位结合进行反短时傅里叶变换 (Inverse
                         k=1
                                       ˆ
                                             ¯
             其中,NN 为批处理个数,S k 和 S k 的维数均为                      short-time Fourier transform, ISTFT),并用重叠相
                                                   ¯
             L, 分别为输出的 LPS 和纯净的 LPS,Z k±τ =                    加法   [24]  恢复为时域波形。
                                ¯
                    ¯
              ¯
                                   ¯
             [Z k−τ , Z k−τ+1 , · · · , Z k , Z k+1 , · · · , Z k+τ ] 为扩帧拼
                                             ¯
                                                               2 基于阵列的DNN模型
             接的输入带噪 LPS 特征,扩帧窗长 R = 2τ + 1,
             而 (W , b) 为 DNN 的权值和偏置的集合。扩帧能使                    2.1  阵列DNN
             DNN 同时学习时间和频域尺度上的信息,有助于                               针对阵列接收信号降噪问题,本文提出阵列
             DNN 分辨目标信号和噪声干扰。DNN 可以用随机                         DNN 算法,将多个阵元的带噪特征拼接在一起形
             梯度下降法来最小化目标函数直至收敛完成训练。                            成一个长向量作为DNN输入。在受限的DNN宽度
             在此基础上本文采用多目标(multi-target)训练,将                    (隐层单元数) 下,若将 K (K 6 M) 个阵元信号分
             IRM 特征作为正则项与纯净 LPS 一同作为输出以                        别扩帧后再拼接,输入维数将达到L × R × K,可能
             期进一步提高DNN的泛化能力              [27] 。L维IRM特征
                                                               会造成输入维数过高,难以完成稳定的训练或造成
             定义如下:                                             过拟合。因此,本文控制了时间窗长的大小使得输
                                 √
                                       e  ¯ S k                入维数在不同阵元数条件下可比,并研究了不同阵
                         IRM k =              ,         (4)
                                            ¯
                                    e  ¯ S k + e  N k          元数的降噪性能。可将任一阵元设置为参考阵元,
                   ¯
             其中,N k 代表噪声的 LPS 特征。IRM 的取值范围                     从阵列带噪信号中估计参考阵元中的目标信号波
             是[0,1],其物理意义为归一化的输入SNR。                           形。利用多目标训练,阵列DNN的目标函数表示为
                                                                         1  NN 
                    
 2
                                                                            ∑
                                                                E Arr =        
  ˆ  ¯            ¯
                              ଢԩ     DNN                                NN     
S k (Y k±τ , W , b) − S k
 2
                     ᝫጷᬷ      ྲढ़      ᝫጷ                                    k=1
                                                                        ∑
                                             ᝫጷ᫽඀                    1  NN 
 \      ¯                 
 2


                                                                +α         
IRM k (Y k±τ , W , b)−IRM k
 , (6)
                                             ฾ត᫽඀                   NN                                  2
                                                                        k=1
                                                                                           ¯
                                                                                  ¯
                                                                                                      ¯
                                                               其中,当 K < M 时,Y k±τ = [Z 1,k±τ , · · · , Z K,k±τ ]
                              ଢԩ     DNN     ฉॎ᧘थ
                                                                                                     ¯
                     ฾តᬷ      ྲढ़      ܫေ                       为K 个阵元各自扩帧后的拼接输入向量,Z i,k±τ 为
                                     ࣜ٪ᄱͯ                      扩帧的第 i 个阵元的带噪 LPS,当K = M 时,τ = 0
                                                               各阵元不进行扩帧操作。这里的 IRM 目标由参考
                        图 1  单阵元 DNN 处理框图
                                                               阵元的信号和噪声计算而来。由于不同阵元接收的
               Fig. 1  The block diagram of the single-sensor
                                                               是来自不同水声传播路径混合的信号,所以它们具
               DNN method
                                                               有相关且互补的特征,因此可以让 DNN 学习到阵
                 加入IRM后的目标函数变为                                 列中的空域信息。这种将多个阵元信号同时送入
                       1  NN 
                    
 2          DNN 并以最小均方误差作为损失函数的处理方式
                          ∑
              E IRM =         
  ˆ  ¯           ¯
                              
S k (Z k±τ , W , b) − S k
                      NN                            2          与波束形成类似,但不同点在于阵列 DNN 能够自
                          k=1
                                                               适应学习非线性的映射函数。
                  1   ∑  
 \                        
 2
                      NN

                                 ¯
              +α         
IRM k (Z k±τ , W , b)−IRM k
 , (5)
                 NN                                  2         2.2  两阶段融合DNN
                     k=1
                  \
             其中,IRM k 为估计的 IRM 特征,α 为 IRM 目标权                      如上文所述,阵元数较多情况下,阵列 DNN 仅
             值。采用均值方差归一化变换              [28]  用全局的均值和          将一部分阵元信号进行拼接作为输入时可以进行
             方差将输入向量和输出向量逐维变换为零均值、单                            扩帧利用时间信息,但不能利用所有阵元的空间信
             位方差的向量再传输给DNN进行训练。                                息,而当阵列 DNN 拼接所有阵元的信号作为输入
   100   101   102   103   104   105   106   107   108   109   110