Page 94 - 《应用声学)》2023年第5期
P. 94
986 2023 年 9 月
Conv ReLU Pooling Full
connection
1. ᰤࣰᎪፏ
13-Conv 13-ReLU 4-Pooling
PTQ MTN
Feature map
bbox_pred
Reshape Softmax Reshape Proposal ROI pooling
3T3 1T1 3. ਖУᡚ Softmax
ӝ۫ӑ
36
1T1 im_info cls_prob
2. ӝ۫ϋᤥᎪፏ 4. Ѭዝ̿ԣڀॆ
图 1 Faster-RCNN 网络结构图
Fig. 1 Structure diagram of Faster-RCNN network
(1) 骨干网络 (Backbone)。Faster-RCNN 首先 Faster-RCNN算法应用于超声相控阵 PE 管道热熔
使用一组基础的卷积、激活、池化层用来提取图像 接头内部缺陷检测,将深度残差网络 (ResNet50)
的特征图。 与特征金字塔 (Feature pyramid network, FPN) 集
(2) 区域候选网络 (RPN)。输入特征图,使用 成形成骨干网络,引入通道注意力模块和空间注
RPN层生成候选框,进行是否含有物体的二分类。 意力模块提高网络对超声相控阵 D 扫图小缺陷的
(3) 感兴趣区域池化 (ROI pooling)。将各个不 学习能力。
同尺寸的特征图通过 ROI pooling 层缩放到同样大
小的特征图。 2.1 CBAM
(4) 分类以及回归 (Classification and regres- CBAM 是一个作用于前馈 CNN 的注意力模
sion)。将大小一致的特征图送到全连接层,进行目 块,它结合了通道和空间两种注意力模块,相比于只
标的分类并且完成边界框回归,获得检测框最终的 关注通道的 SE 注意力机制有更好的效果。CBAM
精确位置。 以一个中间特征映射 F ∈ R C×H×W 作为输入,该
Faster-RCNN 加入了 RPN 层来产生候选框, 模块将根据通道维数 ω c ∈ R 1×1×C 和空间维数
PRN 层可以和检测网络共享卷积层,并且可以在 M S ∈ R 1×H×W 来推断注意力图,然后将注意力图
每个位置同时预测目标边界和 objectness 得分,实 与输入特征图相乘,自适应细化特征 [16] ,计算公式
现了端到端的检测,提升了模型精度。然而 Faster- 见式(1):
RCNN 也存在着一些问题:Faster-RCNN网络具有
′
′
′′
′
大量的参数,需要花费大量的时间,容易出现过拟 F =ω c (F) ⊗ F, F = M S (F ) ⊗ F , (1)
合,此外在卷积过程中小目标容易丢失,导致对小缺 式 (1) 中:⊗ 表示元素级乘法,F 是最终特征输出。
′′
陷的识别效果不佳。 图2显示了每个注意力模块的计算进度。
通道注意力模块关注输入图片中有意义的特
2 改进的Faster-RCNN网络
征信息 [17] ,如图 2(a) 所示。首先将输入的特征图
超声相控阵检测出的热熔接头内部 D 扫视 经过两个并行的最大池化层和平均池化层,将特征
图缺陷相较于寻常目标识别对象,面积小且密 图从 C × H × W 变为 C × 1 × 1 的大小。然后经过
集。本文提出了一种基于轻量级卷积注意力模块 两层的神经网络共享全连接层,第一层神经元个数
(Convolutional block attention module, CBAM)的 为C/r (r 为减少率),第二层神经元个数为C,激活