Page 73 - 《应用声学》2021年第5期
P. 73

第 40 卷 第 5 期         关鑫等: 基于改进支持向量机的水声目标 -杂波不平衡分类研究                                         717


             样本为少数类样本,具有更高的错分代价,对应水声                           此时错分代价趋于相等,可得贝叶斯最优决策:
             目标。则来自 (X, Y ) 的某一数据分为正类的贝叶
                                                                          ˆ
                                                                         ϕ B (x) = sign [p (x) − 1/2] ,   (4)
             斯后验概率为 p(x) = Pr(Y = +1|X = x),如式(1)
                                                               式 (4) 中,sign(·) 为符号函数,然而对具有不同错分
             所示:
                                                               代价的不平衡样本(X s , Y s ),贝叶斯最优准则为
             p (x) =                                                               p s (x)   C k k
                                                                                                + + −
                                                                           +1,            >      s   ,
                                                                           
                          +
                         k Pr (X = x|Y = +1)                       ′              1 − p s (x)  C k s k    (5)
                                                                                                − − +
                                                          ,       ϕ (x) =
                                                                   B
              +
             k Pr (X = x|Y = +1) + k Pr (X = x|Y = −1)                      −1,  else.
                                      −
                                                                           
                                                        (1)
                                                               贝叶斯最优决策变为
                    +
             其中,k 和 k 分别为原始数据中正负样本的分                                        [                          ]
                         −
                                                                                          C k k
                                                                                           + + −
                                                                                              s
                                                                ˆ ′
             布概率,Pr(X = x|Y = +1) 为正样本条件概率,                     ϕ (x)=sign p s (x) −                     . (6)
                                                                 B
                                                                                     C k s k +C k s k
                                                                                                − − +
                                                                                      + + −
             Pr(X = x|Y = −1) 为负样本条件概率,对于样本
                                                                   由式 (4) 和式 (6) 可知,在原始数据空间中,后
             空间也有类似的表述。在分类过程中,正类 (正样
                                                               验概率 p(x) 只需和 1/2 比较,而在有偏采样和错分
             本) 和负类 (负样本) 具有不同的错分代价,可用代
                                                               代价不同的样本空间中,后验概率 p s (·) 和1/2 比较
             价矩阵表示,如表1所示。
                                                               会产生不准确的结果。因此,对于具有不同错分代
                             表 1  代价矩阵                         价的不平衡样本,为了获得良好的分类效果,需要考
                          Table 1 Cost matrix                  虑贝叶斯最优决策ϕ (x)。
                                                                                ˆ ′
                                                                                 B
                                负类预测值        正类预测值             1.2  代价敏感支持向量机
                  负类真实值            0          C (FP)               对于不平衡样本,负类样本主导整体分类准确
                                                +
                  正类真实值         C  −  (FN)       0             率,超平面会向正类样本偏移,导致具有更高错分
                                                               代价的正类样本分类准确率下降,而整体准确率很
                 表 1 中 C 为假负例 (False negative instance,
                         −
                                                               高。CS-SVM通过给少数类样本和多数类样本赋予
                               +
             FN) 的错分代价,C 为假正例 (False positive in-
                                                               不同的错分代价来处理不平衡样本,它的求解等价
             stance, FP)的错分代价。机器学习数据集的建立是
                                                               于在再生核希尔伯特空间 (RKHS)H k 中求解关于
             对原始数据空间的不完全随机采样过程,正样本和
                                                               目标函数的正则问题,决策函数可写为
             负样本的采样数量并非总是相同的,且正样本和负
                                                                       f(x) = h(x) + γ, h ∈ H k , γ ∈ R.  (7)
             样本的重要性是不同的,比如具有不同错分代价的
             不平衡样本。Lin等       [10]  通过贝叶斯决策理论证明了                   Zhang 证明了 Hinge 损失在 SVM 的求解中具
             在有偏采样和错分代价不同的条件下,机器学习算                            有 贝 叶 斯 一 致 性 (Bayesian consistency), 因 此,
             法在原始数据空间和样本空间中的贝叶斯最优决                             Hinge 损失常作为 SVM 的目标函数             [14] 。在 SVM
             策存在差异。最高的分类准确率在统计意义上对应                            的基础上,CS-SVM 引入了调节因子 L(·),如式 (8)
             最小贝叶斯风险:                                          所示:
                                                                       {                       }
                                                                          ℓ
                        {  +                                         1   ∑
                      E C [1 − p (x)] I (ϕ(x) = 1)               min        L (y i ) [1 − y i f (x i )]  + λ∥h∥ 2  ,
                                                                   f  ℓ                      +         H k
                                              }                          i=1
                          −
                       + C p (x) I (ϕ(x) = −1) ,        (2)
                                                                 s.t. y i f(x i ) > 1 − ξ i , ξ i > 0, ∀ i = 1, · · · , ℓ, (8)
             其中,I ( · )为指示函数,条件为真,I (·) = 1,否则为
                                                               其中,L (−1) = C k k ,L (+1) = C k k ,
                                                                                                      − − +
                                                                                 + + −
             0。使得式(2)最小的ϕ B (x)即为贝叶斯最优准则:                                           s                   s
                                                               ξ i = [1 − y i f (x i )]  = max {0, 1 − y i f (x i )} 为
                                                +                               +
                                      p(x)     C
                             +1,           >     ,            Hinge 损失。Lin 等   [10]  证明了 CS-SVM 对应最小贝
                             
                    ϕ B (x) =       1 − p(x)   C  −     (3)               [                    ] 的贝叶斯最优
                                                              叶斯风险E L (Y s ) (1 − Y s f (X s )) +
                              −1,   else.
                             
                                                               决策为
                                                                               (                    )
             在原始数据空间中正类与负类满足独立同分布(In-                                ℓ→∞                 L (−1)
                                                                   ˆ
                                                                   f −−−→ sign p s −                  .   (9)
             dependent and identically distributed, IID) 条件,                         L (−1) + L (+1)
   68   69   70   71   72   73   74   75   76   77   78