Page 126 - 《应用声学》2024年第1期
P. 126

122                                                                                  2024 年 1 月


                 (1) 图像数据的序列化处理                                    (3) 学习嵌入
                 首先对原始图像集合进行归一化、缩放等操作,                             对输入的向量进行查询、键、值线性变换,得到
             并提取图像集合的特征矩阵;然后划分特征矩阵并                            相应多头变换向量,并分别进行自注意力计算,将多
             将图像块转化为序列化数据,通过展平操作将每个                            头的结果拼接得到最终输出。假设输入的向量为x,
             图像块重塑为一维向量,并按照预定义顺序进行编                            查询、键、值线性变换的权重矩阵分别为W q 、W k 和
             码,得到代表每个图像块的序列化数据,其转换公式                           W v ,则有变换后的向量分别为
             如下:                                                               
                                                                               Q = xW q ,
                                                                               
                                                                               
                                                                               
                     x k,i = W 0 · vec (F (b k,i )) + p k,i ,  (7)
                                                                                K = xW k ,                (8)
             式(7) 中,b k,i 表示第 k 个块中的第 i 个位置,F(·) 表                             
                                                                               
                                                                               
                                                                                V = xW v .
             示特定的非线性变换函数,vec(·) 表示将矩阵展平
                                                                                                          h  ,
             成向量,W 0 和p k,i 是可学习参数。关于编码方式通                         将 Q、K、V 分别拆分成 h 个头,则有 {Q i }           i=1
                                                                    h       h  。对于每个头 i ∈ [1, h],计算其对
             常采用字典编码        [19] 、哈希编码  [20]  等。               {K i } i=1 ,{V i } i=1
                 (2) 位置嵌入                                      应的注意力权重α i :
                                                                                       (      T  )
                 采用位置嵌入和 Patch嵌入相加的方式引入位                                                 Q i K i
                                                                          α i = softmax   √      ,        (9)
             置信息,位置嵌入如图2所示,编号 0∼8 的方框表示                                                     d k
             各个位置的位置嵌入,而数字框右侧方框则代表经                            式(9) 中,d k 为缩放因子,用于缓解点积计算时的梯
             过线性投影之后的展平向量。                                     度消失问题      [21] 。

                                               MDF
                                                ڏϸ
                                 ѳѬ
                                 ѭҟ
                                 ߕӝ
                                 ۫
                                                 ̄፥ڏϸߕӝ۫ᄊʷ፥ጳভઆॖ
                                 ߕӝ
                                 ۫ᎄ    0 *  1   2    3    4    5    6   7    8     ͯᎶࢦК
                                 ᆊ
                                                                                   ࣱ࡙Ք᧚
                                                  Transformer ᎄᆊnjܳࡏਖᅼ

                                                     图 2  位置嵌入示意
                                         Fig. 2 Schematic diagram of position embedding
                                                               降低复杂度,在每个子块之后应用剩余连接以缓解
                 对每个头的注意力权重 α i 与对应的值矩阵 V i
             进行相乘与拼接操作,可得                                      梯度消失和梯度爆炸问题并加速模型收敛速度。

                                            h
               MA(Q, K, V ) = Concat({α i V i } i=1 )W m ,  (10)
                                                                                                       Lf
                                                                                 ܳ݀
             式 (10) 中,Concat(·) 表示拼接操作,MA 表示多头                    ࢦКᄊ       ಖ    ฌਓҧ   +    ಖ    ܳࡏ     +
                                                                                            ю
                                                                            ю
             自注意力机制,最后再通过一个线性变换得到最终                               Patches   ӑ    ఻҄         ӑ    ਖᅼ٨
             输出。
                 (4) Transformer编码器
                 引入 Transformer 编码器充分挖掘输入数据集                            图 3  Transformer 编码器框架示意
                                                                  Fig. 3 Schematic diagram of Transformer encoder
             的深层特征信息,将输入集中的每个向量映射到一
                                                                  framework
             个更高维度的空间。图 3 为 Transformer 编码器的
             基本框架,由图 3 可知,Transformer 编码器由交替                   1.3  基于Grad-CAM的特征可视化
             层的多头自我注意机制和多层感知器组成。同时,                                常规深度神经网络通常包含数百个或数千个
             在每个子块之前应用标准化块以提升模型鲁棒性、                            神经元及其之间复杂的连接和权重关系,这种复杂
   121   122   123   124   125   126   127   128   129   130   131