Page 17 - 201901
P. 17

第 38 卷 第 1 期            郭洋等: 复合深度神经网络在直升机声目标识别中的研究                                           13


             识别性能比较。深度神经网络使用短时谱图特征;                            识别性能。图 4 是以一个典型直升机声信号对比复
             SVM 分类器使用幅度谱特征及针对目标远距离探                           合深度神经网络和 CNN-1D 的连续识别结果,可见
             测设计的 MMFCC 特征。其中,使用幅度谱特征的                         复合深度神经网络能有效减少信号频谱的短时变
             SVM记为SVM1,使用幅度谱和MMFCC组合特征                         化引起的错误判决。
             的SVM记为SVM2。
                                                                       表 4   三种深度神经网络的识别结果
                 表 3 是 CNN、LSTM 两种深度神经网络与以
                                                                  Table 4 Recognition results of the three
             SVM 为代表的浅层神经网络的识别结果。深度神
                                                                  deep neural networks
             经网络的总体识别结果均好于 SVM 的总体识别结
             果,主要原因是目标声信号频域信息及其随时间                                 分类器      A      B      C      D    总体
             的变化规律是目标声信号特性的重要体现,深度神
                                                                  CNN-2D 88.44% 97.98%  78.53% 89.68% 88.99%
             经网络采用的二维短时谱图包含了连续数帧数据
                                                                  CNN-1D 91.69% 98.17%  79.29% 89.79% 89.99%
             的连续时频变化信息,利用其多层网络结构的信息
                                                                  CNN-1D
             抽象表征能力,能够在学习中逐步优化目标声信号                               +LSTM   91.84% 97.81% 80.23% 96.12%  91.37%
             特征表征提高目标识别性能。而 SVM 由于受限于
                                                                     1.0
             浅层神经网络的信息处理能力,只能采用幅度谱、
             MMFCC 等低维特征,这些特征局限于信号的短时
                                                                     0.5                               T
             频域信息,不能扩展到连续数帧数据来获取声信号
             的时频相关信息。此外,SVM 识别结果中各类目标                              ࣨए  0                                  គѿፇ౧
             识别正确率之间的不均衡程度明显大于深度神经
             网络的识别结果,在实际应用中这种不均衡将导致
                                                                   -0.5                                F
             识别系统对某类目标存在严重的性能短板。                                                         CNN-1D+LSTM
                                                                                         CNN-1D
                                                                   -1.0
                  表 3    SVM 和深度神经网络的识别结果                              0    1     2    3    4    5    6
                                                                                      ௑ᫎ/s
                Table 3   Recognition results of SVM,
                                                                                  (a) ᤌ፞គѿፇ౧
                LSTM and CNN
                                                                    1500
               分类器   特征类型     A     B      C     D    总体
               SVM1   幅度谱   75.72% 86.94% 62.28% 93.77% 79.04%      1000
                      幅度谱                                          ᮠဋ/Hz
               SVM2     +   76.58% 90.48% 62.15% 97.24% 80.97%
                     MMFCC
                                                                    500
               LSTM  短时谱图 73.71% 95.92% 68.10% 85.75% 81.50%
              CNN-2D 短时谱图 88.44% 97.98% 78.53% 89.68% 88.99%
                                                                      0
                                                                         0.5 1  1.5 2  2.5 3  3.5 4  4.5 5  5.5
                 表 4 比较了 CNN-1D、CNN-2D 和复合深度神                                         ௑ᫎ/s
             经网络的识别结果。CNN-1D较CNN-2D提高了声                                            (b) ᆁ௑៨ڏ
             目标识别的总体正确率,各类均有不同程度的提高。                              图 4  CNN-1D+LSTM 和 CNN-1D 的连续识别结
             这是因为当线谱发生频移时,沿时间轴的一维操作                               果对比
             筛选掉短时谱图中每个频带上的局部较小值,能更                               Fig. 4 Compare of continuous recognition results
                                                                  of CNN-1D+LSTM and CNN-1D
             好地选取每个频带上局部最大值,有效地追踪到线
             谱的频率变化。CNN-1D+LSTM 复合深度神经网                            以直升机从远处直线飞入探测范围,经过测点
             络的整体识别正确率最高。可见LSTM网络所侧重                           然后直线飞离探测范围为一个飞行事件,计算多个
             的直升机信号随时间变化的特征信息,可辅助CNN                           飞行事件中各时刻的平均识别正确率,得到平均识
             优化目标声信号频域信息的表征,从而进一步提高                            别正确率随时间的变化曲线。无论目标运动速度如
   12   13   14   15   16   17   18   19   20   21   22