Page 74 - 《应用声学》2021年第5期
P. 74

718                                                                                  2021 年 9 月


                 需要注意的是,SVM 的标准输出为置信度                          式 (11) 中,K(·) 为核函数,可将非线性数据映射为
             ˆ                                         [15] 。  希尔伯特空间中的线性数据,因此,在 RKHS 中认
             f(x),经过 Sigmoid 函数映射得到后验概率 p s
             式(9) 说明了对于具有不同错分代价的不平衡样本,                         为正负样本线性可分,满足0 < α i < L(1)的正样本
             CS-SVM 是贝叶斯最优的。但是,实际样本总是有                         即为正类支持向量,分类示意图如图1所示。
                                              +
             限的,在独立同分布的采样过程中,k 和 k                 −  接近,          从图1(b)可知,正类支持向量的后验概率较小,
             而对于有限不平衡样本,将 k 和 k 视为先验概率                         具有较大的自信息 (虚线同心圆表示),含有更多的
                                       +
                                            −
                                       s    s
             是不合适的,因为在采样过程中正类样本存在信息                            分类信息,自信息的期望即为香农熵,用来度量样
             损失,比如主动声呐探测过程中,受混响、多径效应                           本整体的信息,可以发现多数类样本整体包含的信
             等因素影响,目标回波往往会发生畸变并伴有能量                            息大于少数类样本,导致 CS-SVM 仍有错分的正类
             损失,导致目标探测数据稀少。因此,正负样本的信                           样本。En-SVM 利用 f H (H shannon ),可使分类结果
             息不对称使得式(9)有如下的修正:                                 对正类样本更加有利,如图 1(c) 所示,“0” 号错分样
                                                     
                                                               本获得了一定的置信度。能量统计方法通过计算
                  ℓ
               ˆ
               f −−→ sign   p s −        1             ,     特征函数间的加权平方距离来表征不同分布之间
                                                      
                        
                                    −
                                  C k −              
                                       s
                               1 +     + H (H shannon )        的差异    [16] ,少数类样本经原始数据空间不完全采
                                         f
                                    +
                                   C k s                       样得到,存在信息损失 H shannon ,本质上是其概率
                                                       (10)
                                                               分布发生了变化,因此,可以用分布差异来度量信
             其中,H shannon 代表正类样本采样过程中丢失的信
                                                               息损失,得到 f H (H shannon ) 近似解。能量距离表示
             息,用香农熵来表示,f H (·) 为其度量准则。基于这
                                                               如下:
             一思想,本文提出了改进的CS-SVM。
                                                                             ∫
                                                                                                2
                                                                D E (p, p ) =    ∥φ p (t) − φ p (t)∥
                                                                        ′
                                                                                           ′
             2 基于能量统计方法的En-SVM                                                R d
                                                                                                 −1
                                                                                     d+1
             2.1 信息损失度量                                                           π  2       d+1  
                                                                             ×   (      ) ∥t∥      dt, (12)
                                                                                   d + 1        
                 根据拉格朗日对偶性,式(8)的对偶问题如下:                                          Γ
                                                                                      2
                        ℓ  ℓ                       ℓ
                    1  ∑ ∑                        ∑
               min            α i α j y i y j K (x i , x j ) −  α i ,  式 (12) 中,p 和 p 分别表示有限样本和原始数据的
                                                                              ′
                 α 4ℓλ
                       i=1 j=1                    i=1          概率分布,φ(·) 为其对应的特征函数,对于不同的概
                    ℓ
                   ∑                                           率分布,特征函数总是存在且收敛的,∥ · ∥表示欧几
                s.t.   α i y i = 0, 0 6 α i 6 L(y i ),
                                                               里得范数,Γ(·) 为伽马函数,d 表示特征向量 x 的维
                   i=1
                   ∀ i = 1, · · · , ℓ,                 (11)    数。能量距离可以等效地表示为
                                      ᡔࣱ᭧
                                     ൤ዝతܸᫎᬦ                 0
                       ൤ዝᩲѬನవ                                                            0  1
                              ൤ዝஃેՔ᧚                          1


                                                        2       3    4                 2      3    4
                                 ൤ᆸѬዝನవ
                       (a) CS-SVMѬዝᇨਓڏ                 (b) ൤ዝನవᒭηৌ                  (c) En-SVMѬዝᇨਓڏ
                                                 图 1  RKHS 中的不平衡分类
                                            Fig. 1 Imbalance classification in RKHS
   69   70   71   72   73   74   75   76   77   78   79