Page 241 - 《应用声学》2025年第2期
P. 241

赵玉琦等: 改进 Faster R-CNN 的大型铸造不锈钢机匣
             第 44 卷 第 2 期                                                                                501
                                              超声相控阵检测图像的缺陷智能识别
                                                                                      ( √       )
             3.2 改进Faster R-CNN网络结构                                       k = k 0 + log 2  wh/512 ,       (1)
                 原始算法中网络层数较少,仅能提取浅层缺陷
                                                               其中,k 表示ROI提取过程中的特征图层数,k 0 为特
             特征。为防止材料晶粒散射噪声、缺陷特征复杂等
                                                               征图映射的种类,w、h分别为ROI候选框的宽和高,
             对特征提取产生影响,应增加网络层数以提升模型
                                                               512为网络训练使用的图像像素尺寸大小。
             特征提取能力,而层数过多会出现梯度消失和网络
                                                                   原始算法的 ROI Pooling 模块进行两次量化取
             退化等现象,深度残差网络 (ResNet)可有效解决上
                                                               整,导致缺陷定位不精确。为精确定位缺陷位置,
             述问题   [17−18] 。一般网络映射如图 7(a) 所示,当输
                                                               采用区域一致性池化(Region of interest alignment,
             入为 x 时,输出为 H(x) = F(x),然而由于梯度消
                                                               ROI Align)代替ROI Pooling模块。ROI Align不进
             失,模型易出现网络退化现象。如图 7(b) 所示,深
                                                               行取整操作,使映射的候选框坐标保留小数位                      [20] 。
             度残差网络输出为 H(x) = F(x) + x,F(x) 为拟合
                                                               ROI Align结构如图9所示,将ROI划分为k ×k (图
             得到的残差函数;当输入 x 满足训练时,网络输出
                                                               中k = 2) 个单元,在子单元中再平均划分 4 个区域,
             F(x) = 0 即可,该层的输出等于该层的输入,从而
                                                               对各区域中心点进行双线性插值处理,计算出 4 个
             形成一个恒等映射,使增加网络层数的同时准确率
                                                               采样点坐标值,最后对其最大池化操作得到固定大
             不会下降。因此,为提升深度学习网络对相控阵缺
                                                               小的 ROI 输出。据此,模型能获得更加准确的候选
             陷图像细节的区分能力,须引入ResNet结构。
                                                               框区域,从而提高模型对缺陷的定位精度。
                                        x
                     x
                                                                                                   P6
                    1f1 Ԅሥ             1f1 Ԅሥ                                                        Max pool
                                           Relu
                        Relu
                                 F↼x↽                             Conv5_x     1f1, 256    3f3, 256  P5
              F↼x↽  3f3 Ԅሥ             3f3 Ԅሥ        x
                                           Relu    ঽ኎௢࠱                              2f
                        Relu                                                  1f1, 256    3f3, 256  P4
                    1f1 Ԅሥ             1f1 Ԅሥ                     Conv4_x
                                                                                     2f
                              H↼x↽/F↼x↽⇁x
                     H↼x↽                  Relu                   Conv3_x     1f1, 256   3f3, 256  P3
                 (a) ʷᓊᎪፏ௢࠱          (b) ൵ࣀᎪፏ௢࠱                                      2f
                                                                  Conv2_x     1f1, 256   3f3, 256  P2
                    图 7  一般网络映射与残差块结构示意图
               Fig. 7  General network mapping and residual                          FPN
                                                                   Conv1
               block structure schematic diagram
                 原始算法中 RPN 仅用提取的末层特征图进行
                                                                    ᣥК
             缺陷目标区域判别,网络层数的增多及多次卷积操                                 ڏϸ
             作等,使缺陷特征更加丰富,但会使模型对缺陷的
             定位更粗略。针对以上问题,将 ResNet50 与 FPN                         ResNet50
             结合  [19] ,以提高模型对缺陷定位的精度。由自底                                   图 8  ResNet50+FPN 结构
             向上、自顶向下和横向连接三部分组成,ResNet50                                  Fig. 8 ResNet50+FPN structure
             与其结合如图 8 所示。ResNet50 提取的特征图为
                                                                  ԥጳভଣϙ              ྲढ़ڏ
             Conv2_x∼Conv5_x,首先对 Conv5_x 进行降维,
             再通过卷积处理得到特征图 P5;Conv5_x进行2 倍                                                    ڍࠀܸ࠵ਖУᡚӝ۫
             上采样后与经过降维处理的 Conv4_x 逐元素相加,
             再经过卷积生成特征图 P4,以此类推;对特征图 P5
             最大池化下采样获取特征图 P6。将 FPN 生成的不
             同规格特征图 P2–P6 传入 RPN 生成锚定框,分别
             设置 15种不同规格候选框,以更好地适应多种缺陷                                      ਖУᡚӝ۫
             尺寸的识别与分类。候选框映射到相应特征图映射                                          图 9  ROI Align 操作
             关系如下:                                                         Fig. 9 ROI Align operation
   236   237   238   239   240   241   242   243   244   245   246