Page 73 - 《应用声学》2021年第5期
P. 73
第 40 卷 第 5 期 关鑫等: 基于改进支持向量机的水声目标 -杂波不平衡分类研究 717
样本为少数类样本,具有更高的错分代价,对应水声 此时错分代价趋于相等,可得贝叶斯最优决策:
目标。则来自 (X, Y ) 的某一数据分为正类的贝叶
ˆ
ϕ B (x) = sign [p (x) − 1/2] , (4)
斯后验概率为 p(x) = Pr(Y = +1|X = x),如式(1)
式 (4) 中,sign(·) 为符号函数,然而对具有不同错分
所示:
代价的不平衡样本(X s , Y s ),贝叶斯最优准则为
p (x) = p s (x) C k k
+ + −
+1, > s ,
+
k Pr (X = x|Y = +1) ′ 1 − p s (x) C k s k (5)
− − +
, ϕ (x) =
B
+
k Pr (X = x|Y = +1) + k Pr (X = x|Y = −1) −1, else.
−
(1)
贝叶斯最优决策变为
+
其中,k 和 k 分别为原始数据中正负样本的分 [ ]
−
C k k
+ + −
s
ˆ ′
布概率,Pr(X = x|Y = +1) 为正样本条件概率, ϕ (x)=sign p s (x) − . (6)
B
C k s k +C k s k
− − +
+ + −
Pr(X = x|Y = −1) 为负样本条件概率,对于样本
由式 (4) 和式 (6) 可知,在原始数据空间中,后
空间也有类似的表述。在分类过程中,正类 (正样
验概率 p(x) 只需和 1/2 比较,而在有偏采样和错分
本) 和负类 (负样本) 具有不同的错分代价,可用代
代价不同的样本空间中,后验概率 p s (·) 和1/2 比较
价矩阵表示,如表1所示。
会产生不准确的结果。因此,对于具有不同错分代
表 1 代价矩阵 价的不平衡样本,为了获得良好的分类效果,需要考
Table 1 Cost matrix 虑贝叶斯最优决策ϕ (x)。
ˆ ′
B
负类预测值 正类预测值 1.2 代价敏感支持向量机
负类真实值 0 C (FP) 对于不平衡样本,负类样本主导整体分类准确
+
正类真实值 C − (FN) 0 率,超平面会向正类样本偏移,导致具有更高错分
代价的正类样本分类准确率下降,而整体准确率很
表 1 中 C 为假负例 (False negative instance,
−
高。CS-SVM通过给少数类样本和多数类样本赋予
+
FN) 的错分代价,C 为假正例 (False positive in-
不同的错分代价来处理不平衡样本,它的求解等价
stance, FP)的错分代价。机器学习数据集的建立是
于在再生核希尔伯特空间 (RKHS)H k 中求解关于
对原始数据空间的不完全随机采样过程,正样本和
目标函数的正则问题,决策函数可写为
负样本的采样数量并非总是相同的,且正样本和负
f(x) = h(x) + γ, h ∈ H k , γ ∈ R. (7)
样本的重要性是不同的,比如具有不同错分代价的
不平衡样本。Lin等 [10] 通过贝叶斯决策理论证明了 Zhang 证明了 Hinge 损失在 SVM 的求解中具
在有偏采样和错分代价不同的条件下,机器学习算 有 贝 叶 斯 一 致 性 (Bayesian consistency), 因 此,
法在原始数据空间和样本空间中的贝叶斯最优决 Hinge 损失常作为 SVM 的目标函数 [14] 。在 SVM
策存在差异。最高的分类准确率在统计意义上对应 的基础上,CS-SVM 引入了调节因子 L(·),如式 (8)
最小贝叶斯风险: 所示:
{ }
ℓ
{ + 1 ∑
E C [1 − p (x)] I (ϕ(x) = 1) min L (y i ) [1 − y i f (x i )] + λ∥h∥ 2 ,
f ℓ + H k
} i=1
−
+ C p (x) I (ϕ(x) = −1) , (2)
s.t. y i f(x i ) > 1 − ξ i , ξ i > 0, ∀ i = 1, · · · , ℓ, (8)
其中,I ( · )为指示函数,条件为真,I (·) = 1,否则为
其中,L (−1) = C k k ,L (+1) = C k k ,
− − +
+ + −
0。使得式(2)最小的ϕ B (x)即为贝叶斯最优准则: s s
ξ i = [1 − y i f (x i )] = max {0, 1 − y i f (x i )} 为
+ +
p(x) C
+1, > , Hinge 损失。Lin 等 [10] 证明了 CS-SVM 对应最小贝
ϕ B (x) = 1 − p(x) C − (3) [ ] 的贝叶斯最优
叶斯风险E L (Y s ) (1 − Y s f (X s )) +
−1, else.
决策为
( )
在原始数据空间中正类与负类满足独立同分布(In- ℓ→∞ L (−1)
ˆ
f −−−→ sign p s − . (9)
dependent and identically distributed, IID) 条件, L (−1) + L (+1)