Page 16 - 201901
P. 16

12                                                                                   2019 年 1 月


             度上的悬停等,通常实验中直线飞行与盘旋飞行次                            与传统 MFCC相比,该特征主要依据目标声信号特
             数比例约为2 : 1。                                       点改进了滤波器组的设计。
                 将实验数据根据实验环境分为训练集和测试
                                                                              表 2   特征样本数
             集,训练集数据大多采集自训练场、靶场等场所,测
                                                                  Table 2 Number of feature samples
             试集数据来自更接近实际使用条件的野外环境。以
             直升机从声学探测距离之外飞向测点,经过测点后
                                                                 数据集       特征类型        A     B     C    D
             继续飞出探测距离为止作为一个完整的飞行事件,
                                                                           短时谱图       9761  10480  9809  10225
             表1列出了训练集和测试集中各类飞行事件的分布                              训练集
                                                                        幅度谱/MMFCC 38343 41037    38474 40540
             情况。训练集中各类目标的声信号时长约1 h,大体
             均衡;测试集中各类目标的声信号时长则各不相同。                             测试集       短时谱图       2119  3063  2646  1832
                 通过交叉校验方法使用训练集数据训练神经                                    幅度谱/MMFCC     8370  12097  10378  7202
             网络,测试集用于检验其识别性能和泛化能力。训
                                                               3.2  参数配置
             练集和测试集中的各类数据都是在多个时间、多个
                                                                   复合深度神经网络的 CNN 模块由两层卷积
             地点,利用同一型号不同架次直升机分批次采集得
                                                               层和两层最大池化层组成。第一层卷积层卷积核
             到的。
                                                               个数为 64,第二层卷积层卷积核个数为 128,使
                                                               用 ReLU 非线性激活函数。为进一步提升识别效
                            表 1   飞行事件数
                                                               果,卷积层和池化层之间连接使用批归一化 (Batch
                    Tabel 1 Number of flight events
                                                               normalization, BN) [17] 。
                  数据集        A      B       C      D               依据直升机声信号基频及谐频频率分布特点
                  训练集        53     26     52      133         和快速傅里叶变换定义的频率分辨率设置卷积核
                                                               和池化核尺寸。在 CNN-2D 中,卷积核维度均为
                  测试集        21     30     10      12
                                                               3 × 3,步长均为 1 × 1,池化核维度均为 2 × 2,步长
                   总计        74     56     62      145
                                                               均为 2 × 2。在CNN-1D 中,卷积核在频率轴上维度
                 本工作比较了 3 组不同类型的特征 (表 2):短                     均为 3,步长均为 1,池化核在频率轴上维度均为 2,
                                                               步长均为2。
             时谱图、幅度谱和改进Mel频率倒谱系数 (Modified
                                                                   复合深度神经网络的 LSTM 模块由两层隐藏
             MFCC, MMFCC) 特征      [16] 。其中 MMFCC 特征是
             在MFCC基础上针对车辆、飞行器等低频声目标远                           层组成,隐藏层有 12 个存储块,存储块维度是 512,
             距离识别而改进的特征提取方法。                                   在隐藏层之间使用层归一化 (Layer normalization,
                 短时谱图:计算声信号每一秒的短时谱图作为                          LN) [18] 。全连接层神经元个数为 1024,由 CNN-1D
                                                               组成的复合深度神经网络记为 CNN-1D+LSTM,
             一个特征样本,帧间重叠50%。在计算短时谱时,做
                                                               输出层为4个神经元的Softmax层。
             512 点快速傅里叶变换 (重叠为 50%) 并取幅度值。
                                                                   复合深度神经网络选用 Nesterov Momentum
             为了避免风噪声等干扰,去掉 50 Hz 以下的低频部
                                                               优化算法     [19] ,动量因子为 0.9。前 10 次迭代初始学
             分,得到247 × 12的二维特征矩阵。
                                                               习率为 0.01,之后每次迭代学习率递减 10%,连续 3
                 幅度谱:以256 ms为一帧,每帧数据使用Welch
                                                               次迭代交叉校验的结果无进一步改善则停止迭代
             方法采用 256点快速傅里叶变换计算归一化的平均
                                                               训练。
             幅度谱,去掉 50 Hz 以下的低频部分,得到 124维的
             特征样本。计算频谱的能量、标准差、斜度和峭度等                           3.3  识别结果分析
             统计量,将124维幅度谱和 4个统计量组合为128维                            为了验证复合深度神经网络的有效性,本文将
             特征向量。                                             其与CNN、LSTM两种深度神经网络和以支持向量
                 MMFCC:声信号降采样到 1 kHz,按照文                       机 (Support vector machine, SVM) 为代表的浅层
             献 [16]所述,以256 ms为一帧,提取 25维特征向量。                   神经网络,使用三种典型特征通过分类实验进行
   11   12   13   14   15   16   17   18   19   20   21