Page 94 - 《应用声学)》2023年第5期
P. 94

986                                                                                  2023 年 9 月


                                          Conv     ReLU    Pooling     Full
                                                                     connection
                                   1. ᰤࣰᎪፏ
                                         13-Conv  13-ReLU  4-Pooling
                      PTQ    MTN




                                                         Feature map

                                                                                            bbox_pred
                                   Reshape  Softmax  Reshape  Proposal  ROI pooling
                        3T3   1T1                                     3. ਖУᡚ                 Softmax
                                                                       ӝ۫෉ӑ
                                           36
                             1T1                            im_info                          cls_prob
                                 2. ӝ۫ϋᤥᎪፏ                                          4. Ѭዝ̿ԣڀॆ
                                                图 1  Faster-RCNN 网络结构图
                                        Fig. 1 Structure diagram of Faster-RCNN network
                 (1) 骨干网络 (Backbone)。Faster-RCNN 首先            Faster-RCNN算法应用于超声相控阵 PE 管道热熔
             使用一组基础的卷积、激活、池化层用来提取图像                            接头内部缺陷检测,将深度残差网络 (ResNet50)
             的特征图。                                             与特征金字塔 (Feature pyramid network, FPN) 集
                 (2) 区域候选网络 (RPN)。输入特征图,使用                     成形成骨干网络,引入通道注意力模块和空间注

             RPN层生成候选框,进行是否含有物体的二分类。                           意力模块提高网络对超声相控阵 D 扫图小缺陷的
                 (3) 感兴趣区域池化 (ROI pooling)。将各个不                学习能力。
             同尺寸的特征图通过 ROI pooling 层缩放到同样大
             小的特征图。                                            2.1  CBAM
                 (4) 分类以及回归 (Classification and regres-             CBAM 是一个作用于前馈 CNN 的注意力模
             sion)。将大小一致的特征图送到全连接层,进行目                         块,它结合了通道和空间两种注意力模块,相比于只
             标的分类并且完成边界框回归,获得检测框最终的                            关注通道的 SE 注意力机制有更好的效果。CBAM
             精确位置。                                             以一个中间特征映射 F ∈ R           C×H×W   作为输入,该
                 Faster-RCNN 加入了 RPN 层来产生候选框,                  模块将根据通道维数 ω c ∈ R            1×1×C  和空间维数
             PRN 层可以和检测网络共享卷积层,并且可以在                           M S ∈ R 1×H×W  来推断注意力图,然后将注意力图
             每个位置同时预测目标边界和 objectness 得分,实                     与输入特征图相乘,自适应细化特征                  [16] ,计算公式
             现了端到端的检测,提升了模型精度。然而 Faster-                       见式(1):
             RCNN 也存在着一些问题:Faster-RCNN网络具有
                                                                                                ′
                                                                       ′
                                                                                      ′′
                                                                                                      ′
             大量的参数,需要花费大量的时间,容易出现过拟                                  F =ω c (F) ⊗ F, F = M S (F ) ⊗ F ,   (1)
             合,此外在卷积过程中小目标容易丢失,导致对小缺                           式 (1) 中:⊗ 表示元素级乘法,F 是最终特征输出。
                                                                                            ′′
             陷的识别效果不佳。                                         图2显示了每个注意力模块的计算进度。
                                                                   通道注意力模块关注输入图片中有意义的特
             2 改进的Faster-RCNN网络
                                                               征信息    [17] ,如图 2(a) 所示。首先将输入的特征图
                 超声相控阵检测出的热熔接头内部 D 扫视                          经过两个并行的最大池化层和平均池化层,将特征

             图缺陷相较于寻常目标识别对象,面积小且密                              图从 C × H × W 变为 C × 1 × 1 的大小。然后经过
             集。本文提出了一种基于轻量级卷积注意力模块                             两层的神经网络共享全连接层,第一层神经元个数
             (Convolutional block attention module, CBAM)的     为C/r (r 为减少率),第二层神经元个数为C,激活
   89   90   91   92   93   94   95   96   97   98   99