Page 75 - 《应用声学》2021年第5期
P. 75

第 40 卷 第 5 期         关鑫等: 基于改进支持向量机的水声目标 -杂波不平衡分类研究                                         719


                   D E (p, p )                                 为了减少待优化参数的数量,需要利用拉格朗日对
                          ′
                                                               偶性得到原始问题式(21)的对偶问题                [13] :
                                    ′
                 = 2E x∼p,x ∼p ∥x − x ∥ − E x,¯ x∼p ∥x − ¯ x∥
                          ′
                             ′
                                                                         ℓ  ℓ                      ℓ
                                    ′                                1  ∑ ∑                       ∑
                   − E x ,¯ x ∼p ∥x − x ∥
                                                                min            α i α j y i y j K(x i , x j ) −  α i ,
                             ′
                          ′
                        ′
                            T
                     T
                 = 2k σ − k Ak + c,                    (13)       α 2ℓλ  i=1 j=1                  i=1
                                                                 s.t.0 6 α i 6 (f H I(y i = 1) + I (y i = −1)) L(y i ),
             式 (13) 中,E x∼p 表示服从概率密度 p 的期望,类别
                                                                     ℓ
                                    − T
                                +
             数只有两类时,k = [k , k ] ,c为与 k 无关的常量,                      ∑
                                                                       α i y i = 0,  ∀ i = 1, 2, · · · , ℓ.  (23)
                                                         ′
             A为2 × 2 阶对称矩阵。对于少数类样本,D E (p, p )                      i=1
                                       +
             可表示为一个相当于常量的k 的函数:                                式(23)中,α为对偶解,则原始问题的解为
                                + 2
                        +
                                         +
                                                                                                 T
                    J(k ) = µ(k ) − 2σk ,              (14)              θ =  1  [y 1 α 1 , · · · , y ℓ α ℓ ] .  (24)
                                                                             2ℓλ
                    µ = 2A 1, −1 − A 1, 1 − A 1, −1 ,  (15)
                                                                   选取一个满足0 < α i < (f H I(y i = 1) + I(y i =
                    σ = A 1, −1 − A −1, −1 − σ 1 + σ −1 ,  (16)  −1))L(y i ) 的 样 本, 则 根 据 KKT 条 件 (Karush-
                                                               Kuhn-Tucker condition)可得
             其中,µ 为贝叶斯风险 D E (p(x|y = 1), p(x|y =
                                                                                                          
                                                                    ℓ
             −1)),A y,¯y 和σ y 可近似给出:                               ∑                         ∑
                                                                                              ℓ
                                                                       α i (L (y i ) f H − α i ) y i −  θ j K (x, x j ) 
                                                                                        
                           1   ∑ ∑
                  ˆ
                  A y, ¯y =             ∥x i − x¯ i ∥,  (17)       i=1                       j=1
                         n y n ¯y                              γ =                                           .
                              l:y i= y ¯ l:y¯ i= ¯y                            ℓ
                                                                              ∑
                                                                                 α i (L (y i ) f H − α i )
                               n ′
                           1  ∑ ∑                                             i=1
                                         ′
                    ˆ σ y =            ∥x i − x i ∥ .  (18)
                                          ′
                          ′
                         n n y                                                                           (25)
                              i =1 i:y i =y
                              ′
                                   n ′  是未知的,但和有限样             代 入 式 (24) 和 式 (25) 到 式 (22), 得 到 最 终 决 策
                                 ′
                                   i =1
             式(18) 中原始数据 {x i } ′
                                                               ˆ
             本和不平衡率n ¯y /n y 存在关联,ˆσ y 可近似为                    f θ,γ (x)。
                               n y
                            1  ∑ ∑                             3 海试数据处理结果及分析
                       ˆ σ y =         ∥x j − x i ∥.   (19)
                            n ¯y
                               j=1 i:y i =y
                                                                   为验证本文算法,使用某海域的水下目标历史
             结合式(14)∼(19)可得到信息损失度量:
                                                               探测数据来构建目标-杂波数据集,由于数据集的样
                                         (  + )
                        f H (H shannon ) ≈ J k  .      (20)    本量较小,为了能够得到有效的机器学习模型,采用
             2.2 En-SVM算法求解                                    “交叉验证(Cross validation)”方法来处理数据。
                 En-SVM 算法的核心在于利用少数类样本不                        3.1  评价指标
             完全采样过程的信息损失来补偿分类模型在训练                                 对于类别不平衡数据,ROC曲线 (Receiver op-
             过程中所需的分类信息,使得分类结果对少数类                             erating characteristic curve) 不易受到数据分布影
             样本更加有利。记f H = f H (H shannon ),由此,可得              响,是一种评价机器学习模型性能的常用方法                      [13] 。
             En-SVM如下:                                         ROC 曲线以真正率 (True positive rate) 为横坐标,
                   (  ℓ                                  )
                 1   ∑                                         以假正率 (False positive rate) 为纵坐标,反映了检
              min       (f H I (y i = 1) + I (y i = −1) L (y i ) ξ i )
               f ℓ                                             测概率和虚警概率之间的制约关系。ROC 曲线下
                     i=1
                                                               的面积被称为Auc(Area of under curve)值,值越大
                        2
                  + λ∥h∥   ,
                        H k
                                                               表明分类效果越好。
              s.t. y i f(x i ) > 1 − ξ i , ξ i >0, ∀ i=1, 2, · · · , ℓ. (21)
                                                               3.2  水声目标-杂波数据集
             RKHS理论保证了式(7)有如下的形式:
                                                                   不平衡样本中,多数类样本与少数类样本的数
                               ℓ
                              ∑                                量之比称为不平衡率 (Imbalanced rate, IR),本文
                       f θ,γ (x)  θ i K(x i , x) + γ.  (22)
                              i=1                              所采用数据集 (X s , Y s ) 的 IR ≈ 245.3,数据维数为
   70   71   72   73   74   75   76   77   78   79   80