Page 178 - 《应用声学》2025年第1期
P. 178

174                                                                                  2025 年 1 月


                 此例中的数据服从的二元高斯分布均值为                            合 g(·) 在增广数据集上输出 “特征” 所在的流形;之
                                      
                                                               后使用 g(·) 推断实测数据集的 “特征”,并通过调整
                                     5
                              µ =       ,             (8)    g(·)的参数对齐这些“特征”与GPR所学流形,从而
                                    10
                                                               在进入σ(·) 前实现两个数据集同分布的效果;最后,
             协方差为
                                                             计算预测与标签的 CE 损失得到的梯度,在实测数
                                    1 1                        据上更新σ(·)的参数。
                             C =        .             (9)
                                    1 2                            显然,所提算法需要使用数据扩增策略作为前
                 对于此例中的数据,可视化的结果表明后向移                          置处理,在离线地从真实数据得到增广数据后,训练
             一位的操作                                             特征提取器和分类器的伪代码描述如表1所示。
                                       
                                     0 0                             表 1   高斯过程辅助的域适应算法伪代码
                             H 1 =                   (10)
                                     1 0                          Table 1 Pseudo code of Gaussian process-
                                                                  assisted domain adaptation algorithm
             和掩蔽第二个维度的操作
                                                                          r  a             0           0
                                                                  给定数据集 D 、D ,特征提取器 g(·; θ g ),分类器 σ(·; θ σ )
                                                                            S
                                                                               S
                                     1 0
                             H 2 =                   (11)       和超参数 α
                                     0 0                          初始化:
                                                                                           0
             会使数据分布发生明显的改变。对于固定参数的特                                 特征提取器网络参数赋值,θ g ← θ g
                                                                    分类器网络参数赋值,θ σ ← θ   0
             征提取器,数据分布上的偏移会反映在特征空间中                                                     σ
                                                                  计算:
                                                   r
             流形的差异。因此,在同时使用实测数据D 和增广                                for 迭代次数 epoch = 1, 2, · · · do
                                                   S
             数据 D 去训练神经网络模型时,为了促进分类器
                   a
                                                                                  ¯a
                                                                                      a
                                                                         a
                   S                                                 for D 中的每个 (S , y ) do
                                                                                      i
                                                                                   i
                                                                         S
             学得有泛化意义的规律,需要考虑它们之间的数据                                   推断 z = g(S ; θ g ), ˆ y = σ(z ; θ σ )
                                                                               ¯a
                                                                                       a
                                                                          a
                                                                                            a
                                                                                      i
                                                                          i
                                                                                i
                                                                                            i
             分布偏移。                                                    计算 y 与 ˆ y 的 CE 损失,梯度反传,更新 θ g 和 θ σ
                                                                               a
                                                                          a
                                                                          i
                                                                               i
                                                                     end for
             3 高斯过程辅助的船舶辐射噪声分类算法                                                a     a     a  a  N a
                                                                     存储推断结果 z 得到 D z = {(z , y )}
                                                                                i           i  i  i=1
                                                                         r
                                                                                      r
                                                                                  ¯r
                                                                     for D 中的每个 (S , y ) do
                                                                                   i
                                                                         S
                                                                                      i
                 对于真实数据有限的船舶辐射噪声分类,需要
                                                                          r
                                                                               ¯r
                                                                      推断 z = g(S ; θ g )
                                                                                i
                                                                          i
             在训练阶段采用数据扩增技术扩充样本量。但如前
                                                                      计算分布偏移损失,梯度反传,更新 θ g
             分析,相比真实数据,扩增技术得到的数据有不可                                   推断 (z ) = g(S ; θ g ), ˆ y = σ((z ) ; θ σ )
                                                                                        r
                                                                                 ¯r
                                                                                               r ′
                                                                           r ′
                                                                           i      i     i      i
             忽视的分布偏移,这会带来分类器性能损失。对此,                                      r    r
                                                                      计算 y 与 ˆ y 的 CE 损失,梯度反传,更新 θ σ
                                                                          i    i
             一个直观的思路是在学习特征提取器和分类器的                                   end for
             同时,将不同数据的分布或相应的特征流形显式地                                 end for
             对齐。因而,本文提出一种高斯过程辅助的域适应                               特征提取器网络参数赋值,θ g     new  ← θ g
                                                                                   new
             训练策略,它针对性地考虑了真实数据和增广数据                               分类器网络参数赋值,θ σ       ← θ σ
                                                                                        new           new )
             在边缘分布上的偏移,在优化更新模型的未知参数                               返回训练好的特征提取器 g(·; θ g     ) 和分类器 σ(·; θ σ
             时,除了使用模型预测输出与标签类别的 CE 损失,
                                                                   对分布偏移损失的定义是算法中的关键。具
             也通过假定不同数据的特征来自由高斯过程描述
                                                               体地,函数 f(x) 若被建模为高斯过程 GP(·, ·),则
             的相同流形,量化了两者的差异,并将最小化此差异
                                                               可记为
             作为额外的优化目标。该算法如图 2 所示。将CNN
             最后的全连接(Fully connected, FC)层看作分类器                            f(x) ∼ GP(m(x), k(x, x )),     (12)
                                                                                                ′
             σ(·),之前的卷积层看作特征提取器 g(·)。所提的训
                                                               其中,m(x)是f(x)的均值函数,
             练策略首先在增广数据集上计算预测与标签的 CE
             损失,并更新σ(·)和g(·)的参数。然后通过GPR,拟                                     m(x) = E(f(x)),            (13)
   173   174   175   176   177   178   179   180   181   182   183