Page 74 - 《应用声学》2021年第5期
P. 74
718 2021 年 9 月
需要注意的是,SVM 的标准输出为置信度 式 (11) 中,K(·) 为核函数,可将非线性数据映射为
ˆ [15] 。 希尔伯特空间中的线性数据,因此,在 RKHS 中认
f(x),经过 Sigmoid 函数映射得到后验概率 p s
式(9) 说明了对于具有不同错分代价的不平衡样本, 为正负样本线性可分,满足0 < α i < L(1)的正样本
CS-SVM 是贝叶斯最优的。但是,实际样本总是有 即为正类支持向量,分类示意图如图1所示。
+
限的,在独立同分布的采样过程中,k 和 k − 接近, 从图1(b)可知,正类支持向量的后验概率较小,
而对于有限不平衡样本,将 k 和 k 视为先验概率 具有较大的自信息 (虚线同心圆表示),含有更多的
+
−
s s
是不合适的,因为在采样过程中正类样本存在信息 分类信息,自信息的期望即为香农熵,用来度量样
损失,比如主动声呐探测过程中,受混响、多径效应 本整体的信息,可以发现多数类样本整体包含的信
等因素影响,目标回波往往会发生畸变并伴有能量 息大于少数类样本,导致 CS-SVM 仍有错分的正类
损失,导致目标探测数据稀少。因此,正负样本的信 样本。En-SVM 利用 f H (H shannon ),可使分类结果
息不对称使得式(9)有如下的修正: 对正类样本更加有利,如图 1(c) 所示,“0” 号错分样
本获得了一定的置信度。能量统计方法通过计算
ℓ
ˆ
f −−→ sign p s − 1 , 特征函数间的加权平方距离来表征不同分布之间
−
C k −
s
1 + + H (H shannon ) 的差异 [16] ,少数类样本经原始数据空间不完全采
f
+
C k s 样得到,存在信息损失 H shannon ,本质上是其概率
(10)
分布发生了变化,因此,可以用分布差异来度量信
其中,H shannon 代表正类样本采样过程中丢失的信
息损失,得到 f H (H shannon ) 近似解。能量距离表示
息,用香农熵来表示,f H (·) 为其度量准则。基于这
如下:
一思想,本文提出了改进的CS-SVM。
∫
2
D E (p, p ) = ∥φ p (t) − φ p (t)∥
′
′
2 基于能量统计方法的En-SVM R d
−1
d+1
2.1 信息损失度量 π 2 d+1
× ( ) ∥t∥ dt, (12)
d + 1
根据拉格朗日对偶性,式(8)的对偶问题如下: Γ
2
ℓ ℓ ℓ
1 ∑ ∑ ∑
min α i α j y i y j K (x i , x j ) − α i , 式 (12) 中,p 和 p 分别表示有限样本和原始数据的
′
α 4ℓλ
i=1 j=1 i=1 概率分布,φ(·) 为其对应的特征函数,对于不同的概
ℓ
∑ 率分布,特征函数总是存在且收敛的,∥ · ∥表示欧几
s.t. α i y i = 0, 0 6 α i 6 L(y i ),
里得范数,Γ(·) 为伽马函数,d 表示特征向量 x 的维
i=1
∀ i = 1, · · · , ℓ, (11) 数。能量距离可以等效地表示为
ᡔࣱ᭧
ዝతܸᫎᬦ 0
ዝᩲѬನవ 0 1
ዝஃેՔ᧚ 1
2 3 4 2 3 4
ᆸѬዝನవ
(a) CS-SVMѬዝᇨਓڏ (b) ዝನవᒭηৌ (c) En-SVMѬዝᇨਓڏ
图 1 RKHS 中的不平衡分类
Fig. 1 Imbalance classification in RKHS