Page 72 - 《应用声学》2021年第5期
P. 72

716                                                                                  2021 年 9 月


                                                               类模型,导致多数类样本的分类准确率存在高于少
             0 引言
                                                               数类样本的趋势        [8] ,整体分类准确率主要受前者影
                 通常主动声呐较被动声呐具备探测距离优势,                          响而变高,但是少数类样本的分类准确率不能满足
             但是,在工作过程中经常伴随着大量的杂波虚警,并                           实际需求。
             且随着水下目标隐身降噪技术的发展,探测难度不                                支持向量机 (Support vector machine, SVM)
             断加大   [1] ,尤其是在浅海海域,分布着礁石、海底山                     是一种经典的机器学习算法,具有坚实的统计学习
             脊、山峰和沉船等强散射体,主动发射信号接触这                            理论基础     [8−12] ,为了探究其在不平衡数据中的分类
             些散射体,会产生和目标强度相近的回波,在探测画                           性能,Lin等    [10]  建立了支持向量机和贝叶斯决策理
             面上出现大量类目标杂波亮点。大量杂波的存在对                            论之间的关系,在贝叶斯决策理论中,贝叶斯最优决
             主动声呐探测性能主要有两方面的影响,第一,难以                           策是最优分类决策         [11] ,他们从理论上证明了对于错
             通过调整信噪比门限,在不损失检测概率的同时降                            分代价相同的类平衡样本,SVM可在样本数量趋于
             低虚警概率;第二,在自动跟踪端生成大量虚假航                            无穷时逼近贝叶斯最优决策,但是对于不平衡数据,
             迹,影响航迹关联,加剧跟踪系统的计算负担,甚至                           SVM无法逼近贝叶斯最优决策,即分类性能差。
             导致跟踪系统瘫痪。因此,杂波抑制是主动声呐信                                代价敏感支持向量机 (Cost sensitive support
             号处理中的重要研究问题,通过对目标和杂波的分                            vector machine, CS-SVM)由SVM结合代价敏感技
             类判别,可以有效解决这个问题              [2] 。                 术发展而来,主要用来解决不平衡分类问题                     [11−12] 。
                 随着大数据时代的到来,从海量数据中挖掘有                          不平衡分类问题与代价敏感学习密切相关,在代价
             效信息的需求推动了机器学习的发展,Berg等                   [2]  为   敏感学习中每个类的错分代价不同,不平衡分类问

             了解决自主水下潜航器群 (Autonomous underwa-                  题中,少数类往往具有更高的错分代价                   [7,13] ,对于
             ter vehicles, AUVs) 受制于有限的通信能力而不能                 错分代价不同的类不平衡样本,CS-SVM 理论上在

             共享大量主动声呐探测数据的问题,研究了 k 近邻                          样本数量趋于无穷大时同样可以逼近贝叶斯最优
             (k near neighbor, k-NN)、ID3、朴素贝叶斯 (Naive          决策   [10] 。然而实际中的样本数量往往有限,导致
             Bayes)和神经网络 (Neural network)等机器学习算                CS-SVM的分类性能总是次优的。
             法,通过对目标和杂波的分类来缩减探测数据。                                 针对 CS-SVM 在有限不平衡样本中难以逼近
             Stender 等  [3−4]  指出在跟踪阶段,由海底地形特征                 贝叶斯最优决策的问题,本文提出了一种基于能
             物 (海山、山脊等) 产生的杂波和人造特征物 (无人                        量统计法的En-SVM算法。利用能量距离量化少数
             潜航器 (Underwater unmanned vehicle, UUV)、潜          类样本在不完全采样过程中的信息损失,使得少数
             艇等) 产生的回波运动特性不同,建立了包含运动                           类样本在再生核希尔伯特空间(Reproducing kernel
             航迹和信噪比特征的数据集,训练机器学习模型,能                           Hilbert space, RKHS) 中可以为机器学习算法提供
             够准确地从背景中发现人造特征物。可见,机器学                            更多的分类信息,提高少数类样本的分类精度。实
             习能够利用数据发现一些潜在的变化规律用来预                             验结果表明,该算法能够有效地处理不平衡水声数
             测未知数据,为水声目标和杂波的分类提供了一种                            据,同时获得高检测概率及较低的虚警概率,并且随
             新的解决思路。                                           着不平衡比率的增加,仍能保持良好的性能。
                 然而,以上研究       [1−4]  并未考虑水声数据集的类
             不平衡特性,即主动声呐使用中海底/海面的不平                            1 CS-SVM的贝叶斯最优决策
             整性、航船辐射噪声等对水声数据采集带来大量的
             杂波干扰,一个水下目标回波通常伴随着数百个杂                            1.1  贝叶斯最优决策
             波。因而,相应的机器学习分类问题为不平衡分类                                水声目标 -杂波分类是典型的二分类问题,不
             问题,即在一个分类问题中某些类的样本数量远多                            失一般性,做如下约定,(X, Y ) 代表原始数据空
                                                                          d
             于其他类别的样本数量           [5] 。一般的机器学习分类算              间,X ∈ R ,Y ∈ {−1, +1},(X s , Y s ) 为样本空
                                                                           d
             法不适合处理类不平衡数据             [6−7] ,因为机器学习算           间,X s ∈ R ,Y s ∈ {−1, +1},d 表示数据维数,
             法在训练的过程中基于整体分类误差最小构建分                             “Y s = −1” 代表负样本,“Y s = +1” 代表正样本,正
   67   68   69   70   71   72   73   74   75   76   77