Page 72 - 《应用声学》2021年第5期
P. 72
716 2021 年 9 月
类模型,导致多数类样本的分类准确率存在高于少
0 引言
数类样本的趋势 [8] ,整体分类准确率主要受前者影
通常主动声呐较被动声呐具备探测距离优势, 响而变高,但是少数类样本的分类准确率不能满足
但是,在工作过程中经常伴随着大量的杂波虚警,并 实际需求。
且随着水下目标隐身降噪技术的发展,探测难度不 支持向量机 (Support vector machine, SVM)
断加大 [1] ,尤其是在浅海海域,分布着礁石、海底山 是一种经典的机器学习算法,具有坚实的统计学习
脊、山峰和沉船等强散射体,主动发射信号接触这 理论基础 [8−12] ,为了探究其在不平衡数据中的分类
些散射体,会产生和目标强度相近的回波,在探测画 性能,Lin等 [10] 建立了支持向量机和贝叶斯决策理
面上出现大量类目标杂波亮点。大量杂波的存在对 论之间的关系,在贝叶斯决策理论中,贝叶斯最优决
主动声呐探测性能主要有两方面的影响,第一,难以 策是最优分类决策 [11] ,他们从理论上证明了对于错
通过调整信噪比门限,在不损失检测概率的同时降 分代价相同的类平衡样本,SVM可在样本数量趋于
低虚警概率;第二,在自动跟踪端生成大量虚假航 无穷时逼近贝叶斯最优决策,但是对于不平衡数据,
迹,影响航迹关联,加剧跟踪系统的计算负担,甚至 SVM无法逼近贝叶斯最优决策,即分类性能差。
导致跟踪系统瘫痪。因此,杂波抑制是主动声呐信 代价敏感支持向量机 (Cost sensitive support
号处理中的重要研究问题,通过对目标和杂波的分 vector machine, CS-SVM)由SVM结合代价敏感技
类判别,可以有效解决这个问题 [2] 。 术发展而来,主要用来解决不平衡分类问题 [11−12] 。
随着大数据时代的到来,从海量数据中挖掘有 不平衡分类问题与代价敏感学习密切相关,在代价
效信息的需求推动了机器学习的发展,Berg等 [2] 为 敏感学习中每个类的错分代价不同,不平衡分类问
了解决自主水下潜航器群 (Autonomous underwa- 题中,少数类往往具有更高的错分代价 [7,13] ,对于
ter vehicles, AUVs) 受制于有限的通信能力而不能 错分代价不同的类不平衡样本,CS-SVM 理论上在
共享大量主动声呐探测数据的问题,研究了 k 近邻 样本数量趋于无穷大时同样可以逼近贝叶斯最优
(k near neighbor, k-NN)、ID3、朴素贝叶斯 (Naive 决策 [10] 。然而实际中的样本数量往往有限,导致
Bayes)和神经网络 (Neural network)等机器学习算 CS-SVM的分类性能总是次优的。
法,通过对目标和杂波的分类来缩减探测数据。 针对 CS-SVM 在有限不平衡样本中难以逼近
Stender 等 [3−4] 指出在跟踪阶段,由海底地形特征 贝叶斯最优决策的问题,本文提出了一种基于能
物 (海山、山脊等) 产生的杂波和人造特征物 (无人 量统计法的En-SVM算法。利用能量距离量化少数
潜航器 (Underwater unmanned vehicle, UUV)、潜 类样本在不完全采样过程中的信息损失,使得少数
艇等) 产生的回波运动特性不同,建立了包含运动 类样本在再生核希尔伯特空间(Reproducing kernel
航迹和信噪比特征的数据集,训练机器学习模型,能 Hilbert space, RKHS) 中可以为机器学习算法提供
够准确地从背景中发现人造特征物。可见,机器学 更多的分类信息,提高少数类样本的分类精度。实
习能够利用数据发现一些潜在的变化规律用来预 验结果表明,该算法能够有效地处理不平衡水声数
测未知数据,为水声目标和杂波的分类提供了一种 据,同时获得高检测概率及较低的虚警概率,并且随
新的解决思路。 着不平衡比率的增加,仍能保持良好的性能。
然而,以上研究 [1−4] 并未考虑水声数据集的类
不平衡特性,即主动声呐使用中海底/海面的不平 1 CS-SVM的贝叶斯最优决策
整性、航船辐射噪声等对水声数据采集带来大量的
杂波干扰,一个水下目标回波通常伴随着数百个杂 1.1 贝叶斯最优决策
波。因而,相应的机器学习分类问题为不平衡分类 水声目标 -杂波分类是典型的二分类问题,不
问题,即在一个分类问题中某些类的样本数量远多 失一般性,做如下约定,(X, Y ) 代表原始数据空
d
于其他类别的样本数量 [5] 。一般的机器学习分类算 间,X ∈ R ,Y ∈ {−1, +1},(X s , Y s ) 为样本空
d
法不适合处理类不平衡数据 [6−7] ,因为机器学习算 间,X s ∈ R ,Y s ∈ {−1, +1},d 表示数据维数,
法在训练的过程中基于整体分类误差最小构建分 “Y s = −1” 代表负样本,“Y s = +1” 代表正样本,正