Page 75 - 《应用声学》2021年第5期
P. 75
第 40 卷 第 5 期 关鑫等: 基于改进支持向量机的水声目标 -杂波不平衡分类研究 719
D E (p, p ) 为了减少待优化参数的数量,需要利用拉格朗日对
′
偶性得到原始问题式(21)的对偶问题 [13] :
′
= 2E x∼p,x ∼p ∥x − x ∥ − E x,¯ x∼p ∥x − ¯ x∥
′
′
ℓ ℓ ℓ
′ 1 ∑ ∑ ∑
− E x ,¯ x ∼p ∥x − x ∥
min α i α j y i y j K(x i , x j ) − α i ,
′
′
′
T
T
= 2k σ − k Ak + c, (13) α 2ℓλ i=1 j=1 i=1
s.t.0 6 α i 6 (f H I(y i = 1) + I (y i = −1)) L(y i ),
式 (13) 中,E x∼p 表示服从概率密度 p 的期望,类别
ℓ
− T
+
数只有两类时,k = [k , k ] ,c为与 k 无关的常量, ∑
α i y i = 0, ∀ i = 1, 2, · · · , ℓ. (23)
′
A为2 × 2 阶对称矩阵。对于少数类样本,D E (p, p ) i=1
+
可表示为一个相当于常量的k 的函数: 式(23)中,α为对偶解,则原始问题的解为
+ 2
+
+
T
J(k ) = µ(k ) − 2σk , (14) θ = 1 [y 1 α 1 , · · · , y ℓ α ℓ ] . (24)
2ℓλ
µ = 2A 1, −1 − A 1, 1 − A 1, −1 , (15)
选取一个满足0 < α i < (f H I(y i = 1) + I(y i =
σ = A 1, −1 − A −1, −1 − σ 1 + σ −1 , (16) −1))L(y i ) 的 样 本, 则 根 据 KKT 条 件 (Karush-
Kuhn-Tucker condition)可得
其中,µ 为贝叶斯风险 D E (p(x|y = 1), p(x|y =
ℓ
−1)),A y,¯y 和σ y 可近似给出: ∑ ∑
ℓ
α i (L (y i ) f H − α i ) y i − θ j K (x, x j )
1 ∑ ∑
ˆ
A y, ¯y = ∥x i − x¯ i ∥, (17) i=1 j=1
n y n ¯y γ = .
l:y i= y ¯ l:y¯ i= ¯y ℓ
∑
α i (L (y i ) f H − α i )
n ′
1 ∑ ∑ i=1
′
ˆ σ y = ∥x i − x i ∥ . (18)
′
′
n n y (25)
i =1 i:y i =y
′
n ′ 是未知的,但和有限样 代 入 式 (24) 和 式 (25) 到 式 (22), 得 到 最 终 决 策
′
i =1
式(18) 中原始数据 {x i } ′
ˆ
本和不平衡率n ¯y /n y 存在关联,ˆσ y 可近似为 f θ,γ (x)。
n y
1 ∑ ∑ 3 海试数据处理结果及分析
ˆ σ y = ∥x j − x i ∥. (19)
n ¯y
j=1 i:y i =y
为验证本文算法,使用某海域的水下目标历史
结合式(14)∼(19)可得到信息损失度量:
探测数据来构建目标-杂波数据集,由于数据集的样
( + )
f H (H shannon ) ≈ J k . (20) 本量较小,为了能够得到有效的机器学习模型,采用
2.2 En-SVM算法求解 “交叉验证(Cross validation)”方法来处理数据。
En-SVM 算法的核心在于利用少数类样本不 3.1 评价指标
完全采样过程的信息损失来补偿分类模型在训练 对于类别不平衡数据,ROC曲线 (Receiver op-
过程中所需的分类信息,使得分类结果对少数类 erating characteristic curve) 不易受到数据分布影
样本更加有利。记f H = f H (H shannon ),由此,可得 响,是一种评价机器学习模型性能的常用方法 [13] 。
En-SVM如下: ROC 曲线以真正率 (True positive rate) 为横坐标,
( ℓ )
1 ∑ 以假正率 (False positive rate) 为纵坐标,反映了检
min (f H I (y i = 1) + I (y i = −1) L (y i ) ξ i )
f ℓ 测概率和虚警概率之间的制约关系。ROC 曲线下
i=1
的面积被称为Auc(Area of under curve)值,值越大
2
+ λ∥h∥ ,
H k
表明分类效果越好。
s.t. y i f(x i ) > 1 − ξ i , ξ i >0, ∀ i=1, 2, · · · , ℓ. (21)
3.2 水声目标-杂波数据集
RKHS理论保证了式(7)有如下的形式:
不平衡样本中,多数类样本与少数类样本的数
ℓ
∑ 量之比称为不平衡率 (Imbalanced rate, IR),本文
f θ,γ (x) θ i K(x i , x) + γ. (22)
i=1 所采用数据集 (X s , Y s ) 的 IR ≈ 245.3,数据维数为