Page 16 - 201901
P. 16
12 2019 年 1 月
度上的悬停等,通常实验中直线飞行与盘旋飞行次 与传统 MFCC相比,该特征主要依据目标声信号特
数比例约为2 : 1。 点改进了滤波器组的设计。
将实验数据根据实验环境分为训练集和测试
表 2 特征样本数
集,训练集数据大多采集自训练场、靶场等场所,测
Table 2 Number of feature samples
试集数据来自更接近实际使用条件的野外环境。以
直升机从声学探测距离之外飞向测点,经过测点后
数据集 特征类型 A B C D
继续飞出探测距离为止作为一个完整的飞行事件,
短时谱图 9761 10480 9809 10225
表1列出了训练集和测试集中各类飞行事件的分布 训练集
幅度谱/MMFCC 38343 41037 38474 40540
情况。训练集中各类目标的声信号时长约1 h,大体
均衡;测试集中各类目标的声信号时长则各不相同。 测试集 短时谱图 2119 3063 2646 1832
通过交叉校验方法使用训练集数据训练神经 幅度谱/MMFCC 8370 12097 10378 7202
网络,测试集用于检验其识别性能和泛化能力。训
3.2 参数配置
练集和测试集中的各类数据都是在多个时间、多个
复合深度神经网络的 CNN 模块由两层卷积
地点,利用同一型号不同架次直升机分批次采集得
层和两层最大池化层组成。第一层卷积层卷积核
到的。
个数为 64,第二层卷积层卷积核个数为 128,使
用 ReLU 非线性激活函数。为进一步提升识别效
表 1 飞行事件数
果,卷积层和池化层之间连接使用批归一化 (Batch
Tabel 1 Number of flight events
normalization, BN) [17] 。
数据集 A B C D 依据直升机声信号基频及谐频频率分布特点
训练集 53 26 52 133 和快速傅里叶变换定义的频率分辨率设置卷积核
和池化核尺寸。在 CNN-2D 中,卷积核维度均为
测试集 21 30 10 12
3 × 3,步长均为 1 × 1,池化核维度均为 2 × 2,步长
总计 74 56 62 145
均为 2 × 2。在CNN-1D 中,卷积核在频率轴上维度
本工作比较了 3 组不同类型的特征 (表 2):短 均为 3,步长均为 1,池化核在频率轴上维度均为 2,
步长均为2。
时谱图、幅度谱和改进Mel频率倒谱系数 (Modified
复合深度神经网络的 LSTM 模块由两层隐藏
MFCC, MMFCC) 特征 [16] 。其中 MMFCC 特征是
在MFCC基础上针对车辆、飞行器等低频声目标远 层组成,隐藏层有 12 个存储块,存储块维度是 512,
距离识别而改进的特征提取方法。 在隐藏层之间使用层归一化 (Layer normalization,
短时谱图:计算声信号每一秒的短时谱图作为 LN) [18] 。全连接层神经元个数为 1024,由 CNN-1D
组成的复合深度神经网络记为 CNN-1D+LSTM,
一个特征样本,帧间重叠50%。在计算短时谱时,做
输出层为4个神经元的Softmax层。
512 点快速傅里叶变换 (重叠为 50%) 并取幅度值。
复合深度神经网络选用 Nesterov Momentum
为了避免风噪声等干扰,去掉 50 Hz 以下的低频部
优化算法 [19] ,动量因子为 0.9。前 10 次迭代初始学
分,得到247 × 12的二维特征矩阵。
习率为 0.01,之后每次迭代学习率递减 10%,连续 3
幅度谱:以256 ms为一帧,每帧数据使用Welch
次迭代交叉校验的结果无进一步改善则停止迭代
方法采用 256点快速傅里叶变换计算归一化的平均
训练。
幅度谱,去掉 50 Hz 以下的低频部分,得到 124维的
特征样本。计算频谱的能量、标准差、斜度和峭度等 3.3 识别结果分析
统计量,将124维幅度谱和 4个统计量组合为128维 为了验证复合深度神经网络的有效性,本文将
特征向量。 其与CNN、LSTM两种深度神经网络和以支持向量
MMFCC:声信号降采样到 1 kHz,按照文 机 (Support vector machine, SVM) 为代表的浅层
献 [16]所述,以256 ms为一帧,提取 25维特征向量。 神经网络,使用三种典型特征通过分类实验进行