Page 17 - 201901
P. 17
第 38 卷 第 1 期 郭洋等: 复合深度神经网络在直升机声目标识别中的研究 13
识别性能比较。深度神经网络使用短时谱图特征; 识别性能。图 4 是以一个典型直升机声信号对比复
SVM 分类器使用幅度谱特征及针对目标远距离探 合深度神经网络和 CNN-1D 的连续识别结果,可见
测设计的 MMFCC 特征。其中,使用幅度谱特征的 复合深度神经网络能有效减少信号频谱的短时变
SVM记为SVM1,使用幅度谱和MMFCC组合特征 化引起的错误判决。
的SVM记为SVM2。
表 4 三种深度神经网络的识别结果
表 3 是 CNN、LSTM 两种深度神经网络与以
Table 4 Recognition results of the three
SVM 为代表的浅层神经网络的识别结果。深度神
deep neural networks
经网络的总体识别结果均好于 SVM 的总体识别结
果,主要原因是目标声信号频域信息及其随时间 分类器 A B C D 总体
的变化规律是目标声信号特性的重要体现,深度神
CNN-2D 88.44% 97.98% 78.53% 89.68% 88.99%
经网络采用的二维短时谱图包含了连续数帧数据
CNN-1D 91.69% 98.17% 79.29% 89.79% 89.99%
的连续时频变化信息,利用其多层网络结构的信息
CNN-1D
抽象表征能力,能够在学习中逐步优化目标声信号 +LSTM 91.84% 97.81% 80.23% 96.12% 91.37%
特征表征提高目标识别性能。而 SVM 由于受限于
1.0
浅层神经网络的信息处理能力,只能采用幅度谱、
MMFCC 等低维特征,这些特征局限于信号的短时
0.5 T
频域信息,不能扩展到连续数帧数据来获取声信号
的时频相关信息。此外,SVM 识别结果中各类目标 ࣨए 0 គѿፇ౧
识别正确率之间的不均衡程度明显大于深度神经
网络的识别结果,在实际应用中这种不均衡将导致
-0.5 F
识别系统对某类目标存在严重的性能短板。 CNN-1D+LSTM
CNN-1D
-1.0
表 3 SVM 和深度神经网络的识别结果 0 1 2 3 4 5 6
ᫎ/s
Table 3 Recognition results of SVM,
(a) ᤌ፞គѿፇ౧
LSTM and CNN
1500
分类器 特征类型 A B C D 总体
SVM1 幅度谱 75.72% 86.94% 62.28% 93.77% 79.04% 1000
幅度谱 ᮠဋ/Hz
SVM2 + 76.58% 90.48% 62.15% 97.24% 80.97%
MMFCC
500
LSTM 短时谱图 73.71% 95.92% 68.10% 85.75% 81.50%
CNN-2D 短时谱图 88.44% 97.98% 78.53% 89.68% 88.99%
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
表 4 比较了 CNN-1D、CNN-2D 和复合深度神 ᫎ/s
经网络的识别结果。CNN-1D较CNN-2D提高了声 (b) ᆁ៨ڏ
目标识别的总体正确率,各类均有不同程度的提高。 图 4 CNN-1D+LSTM 和 CNN-1D 的连续识别结
这是因为当线谱发生频移时,沿时间轴的一维操作 果对比
筛选掉短时谱图中每个频带上的局部较小值,能更 Fig. 4 Compare of continuous recognition results
of CNN-1D+LSTM and CNN-1D
好地选取每个频带上局部最大值,有效地追踪到线
谱的频率变化。CNN-1D+LSTM 复合深度神经网 以直升机从远处直线飞入探测范围,经过测点
络的整体识别正确率最高。可见LSTM网络所侧重 然后直线飞离探测范围为一个飞行事件,计算多个
的直升机信号随时间变化的特征信息,可辅助CNN 飞行事件中各时刻的平均识别正确率,得到平均识
优化目标声信号频域信息的表征,从而进一步提高 别正确率随时间的变化曲线。无论目标运动速度如