Page 126 - 《应用声学》2024年第1期
P. 126
122 2024 年 1 月
(1) 图像数据的序列化处理 (3) 学习嵌入
首先对原始图像集合进行归一化、缩放等操作, 对输入的向量进行查询、键、值线性变换,得到
并提取图像集合的特征矩阵;然后划分特征矩阵并 相应多头变换向量,并分别进行自注意力计算,将多
将图像块转化为序列化数据,通过展平操作将每个 头的结果拼接得到最终输出。假设输入的向量为x,
图像块重塑为一维向量,并按照预定义顺序进行编 查询、键、值线性变换的权重矩阵分别为W q 、W k 和
码,得到代表每个图像块的序列化数据,其转换公式 W v ,则有变换后的向量分别为
如下:
Q = xW q ,
x k,i = W 0 · vec (F (b k,i )) + p k,i , (7)
K = xW k , (8)
式(7) 中,b k,i 表示第 k 个块中的第 i 个位置,F(·) 表
V = xW v .
示特定的非线性变换函数,vec(·) 表示将矩阵展平
h ,
成向量,W 0 和p k,i 是可学习参数。关于编码方式通 将 Q、K、V 分别拆分成 h 个头,则有 {Q i } i=1
h h 。对于每个头 i ∈ [1, h],计算其对
常采用字典编码 [19] 、哈希编码 [20] 等。 {K i } i=1 ,{V i } i=1
(2) 位置嵌入 应的注意力权重α i :
( T )
采用位置嵌入和 Patch嵌入相加的方式引入位 Q i K i
α i = softmax √ , (9)
置信息,位置嵌入如图2所示,编号 0∼8 的方框表示 d k
各个位置的位置嵌入,而数字框右侧方框则代表经 式(9) 中,d k 为缩放因子,用于缓解点积计算时的梯
过线性投影之后的展平向量。 度消失问题 [21] 。
MDF
ڏϸ
ѳѬ
ѭҟ
ߕӝ
۫
̄፥ڏϸߕӝ۫ᄊʷ፥ጳভઆॖ
ߕӝ
۫ᎄ 0 * 1 2 3 4 5 6 7 8 ͯᎶࢦК
ᆊ
ࣱ࡙Ք᧚
Transformer ᎄᆊnjܳࡏਖᅼ
图 2 位置嵌入示意
Fig. 2 Schematic diagram of position embedding
降低复杂度,在每个子块之后应用剩余连接以缓解
对每个头的注意力权重 α i 与对应的值矩阵 V i
进行相乘与拼接操作,可得 梯度消失和梯度爆炸问题并加速模型收敛速度。
h
MA(Q, K, V ) = Concat({α i V i } i=1 )W m , (10)
Lf
ܳ݀
式 (10) 中,Concat(·) 表示拼接操作,MA 表示多头 ࢦКᄊ ಖ ฌਓҧ + ಖ ܳࡏ +
ю
ю
自注意力机制,最后再通过一个线性变换得到最终 Patches ӑ ҄ ӑ ਖᅼ٨
输出。
(4) Transformer编码器
引入 Transformer 编码器充分挖掘输入数据集 图 3 Transformer 编码器框架示意
Fig. 3 Schematic diagram of Transformer encoder
的深层特征信息,将输入集中的每个向量映射到一
framework
个更高维度的空间。图 3 为 Transformer 编码器的
基本框架,由图 3 可知,Transformer 编码器由交替 1.3 基于Grad-CAM的特征可视化
层的多头自我注意机制和多层感知器组成。同时, 常规深度神经网络通常包含数百个或数千个
在每个子块之前应用标准化块以提升模型鲁棒性、 神经元及其之间复杂的连接和权重关系,这种复杂