Page 15 - 201901
P. 15

第 38 卷 第 1 期            郭洋等: 复合深度神经网络在直升机声目标识别中的研究                                           11


                                                                             l
                                                                         l
                     l
             特征图X 表示为        [13]                                      c = f ◦ c l  + i ◦ z ,             (4)
                                                                                       l
                                                                                           l
                                                                         t   t   t−1   t   t
                                                                                      l
                                                                             l
                                                                         l
                               l
                            X = S(X   l−1 ),            (2)            h = o ◦ tanh(c ),                  (5)
                                                                             t
                                                                                      t
                                                                         t
                                                                      l
             其中,S 为下采样规则,本文采用最大池化的下采样                          其中,h 表示隐藏层在时间步的输出;i、f、o、c 分
                                                                      t
             规则。                                               别表示输入门、遗忘门、输出门和记忆单元;W 、b分
                 线谱在短时谱图的相邻时频单元中通常表现                           别表示网络通过训练得到的权值矩阵和偏置;sigm、
             为局部最大值。最大池化操作选取特征的局部最大                            tanh分别表示非线性Sigmoid、Tanh激活函数;◦ 表
             值,可得到在该局部的线谱特征。为了更好地追踪                            示矩阵点乘。
                                                                           l
                                                                                     l
             线谱的变化,结合目标声信号频谱特点,对卷积神                                输入门i 、遗忘门f 依赖h          l−1  和h l t−1 。这种依
                                                                                    t
                                                                                           t
                                                                           t
             经网络的卷积、池化进行改进,使其只沿输入特征                            赖性使得记忆单元c 的更新和输入序列前后信息相
             的频率轴方向进行,各卷积核、池化核在时间轴上                            关,能够对记忆单元中的信息进行选择性的记忆和
             的维度等于对应输入特征在时间轴上的维度,记为                            遗忘,从而更有效地建模数据的长时依赖性。同时,
                                                                       l
             CNN-1D,而通常对输入特征所使用的二维操作记                          输出门 o 控制记忆单元输出与当前时间步相关的
                                                                       t
             为CNN-2D。局部连接机制使卷积神经网络可以按                          信息。
             照参数所设定的尺度分析、挖掘声信号短时谱的局                                         l                l
                                                                                t
                                                                                                 t
                                                                           h t֓  h l֓     h t֓  h  l֓
             部时频信息,进而表达声信号时频两个维度的内在
             联系。
                                                                        ᣥК᫃    i l     ᣥѣ᫃    o l
                 卷积神经网络模型参数依据声信号特点设置。                                          t               t
                                                                                    ᝮॺӭЋ
                                                                  l                                      l
             卷积核尺度大于线谱频率之间的间隔,以分析相邻                              h t֓                c l t             h  t
             线谱之间频带范围内的线谱特征。池化核尺度小于                              h l֓       z l t
                                                                  t
             线谱频率之间的间隔,以避免池化核在频率轴上滑                                                    l
                                                                                      f
                                                                                      t  ᥌঄᫃
             动时可能混淆相邻线谱特征。
                                                                                    l   h l֓
                                                                                   h t֓  t
             2.3 长短时记忆神经网络
                 长短时记忆神经网络是一种擅长处理序列数                                        图 3  LSTM 存储块结构
             据的深度神经网络         [14] ,能够从序列中学习到数据特                         Fig. 3 Structure of LSTM cell
             征和建模数据之间的长短时依赖性。其循环连接的                                直升机飞行是一个连续过程,因此其声信号特
             结构使得长短时记忆神经网络可对历史信息进行                             征具有时间上的连续性,这一特性有助于提升声目
             记忆并应用于当前输出的计算中。区别于其他神经
                                                               标识别效果。特别是在直升机声信号特征变化时,
             网络,其同一隐藏层之间的节点是有连接的且节点                            历史信息有助于目标探测系统快速适应改变,及时
             间参数共享,并且隐藏层的输入不仅包括当前时间                            捕捉目标声信号特征。因此可考虑利用长短时记忆
             步上一隐藏层的输出还包括上一时间步同一隐藏
                                                               神经网络学习声信号特征的长短时依赖性,改善连
             层的输出。同时,在隐藏层中引入由记忆单元、输入                           续识别过程中识别的正确率和鲁棒性。
             门、输出门和遗忘门组成的存储块,存储块中的三
             个门能对记忆单元进行读、写和复位操作,通过三                            3 直升机识别实验
             个门控制信息在不同记忆单元之间的流动。本文采
                                                               3.1  实验数据
             用文献 [15] 所提出的 LSTM 存储块结构,如图 3 所
             示,计算关系如下。                                             本文使用的数据是来自不同地点的多次外场
                                                               实验中采集的四种型号(分别以 A、B、C、D表示) 的
                              
                   i l t    sigm
                                                         直升机声信号。根据直升机声信号特点,信号采样
                    l
                                      l−1
                    t                 l   t        l           率为3 kHz,兼顾特征提取与计算量控制。实验数据
                 f       sigm        h
                      =         W         + b ,   (3)
                   l                  l
                    t                     t−1
                 o       sigm        h                     包含多种典型飞行状态,如不同高度的直线飞行和
                              
                   z l t    tanh                               沿不同半径的盘旋飞行以及少量的不同距离和高
   10   11   12   13   14   15   16   17   18   19   20