Page 241 - 《应用声学》2025年第2期
P. 241
赵玉琦等: 改进 Faster R-CNN 的大型铸造不锈钢机匣
第 44 卷 第 2 期 501
超声相控阵检测图像的缺陷智能识别
( √ )
3.2 改进Faster R-CNN网络结构 k = k 0 + log 2 wh/512 , (1)
原始算法中网络层数较少,仅能提取浅层缺陷
其中,k 表示ROI提取过程中的特征图层数,k 0 为特
特征。为防止材料晶粒散射噪声、缺陷特征复杂等
征图映射的种类,w、h分别为ROI候选框的宽和高,
对特征提取产生影响,应增加网络层数以提升模型
512为网络训练使用的图像像素尺寸大小。
特征提取能力,而层数过多会出现梯度消失和网络
原始算法的 ROI Pooling 模块进行两次量化取
退化等现象,深度残差网络 (ResNet)可有效解决上
整,导致缺陷定位不精确。为精确定位缺陷位置,
述问题 [17−18] 。一般网络映射如图 7(a) 所示,当输
采用区域一致性池化(Region of interest alignment,
入为 x 时,输出为 H(x) = F(x),然而由于梯度消
ROI Align)代替ROI Pooling模块。ROI Align不进
失,模型易出现网络退化现象。如图 7(b) 所示,深
行取整操作,使映射的候选框坐标保留小数位 [20] 。
度残差网络输出为 H(x) = F(x) + x,F(x) 为拟合
ROI Align结构如图9所示,将ROI划分为k ×k (图
得到的残差函数;当输入 x 满足训练时,网络输出
中k = 2) 个单元,在子单元中再平均划分 4 个区域,
F(x) = 0 即可,该层的输出等于该层的输入,从而
对各区域中心点进行双线性插值处理,计算出 4 个
形成一个恒等映射,使增加网络层数的同时准确率
采样点坐标值,最后对其最大池化操作得到固定大
不会下降。因此,为提升深度学习网络对相控阵缺
小的 ROI 输出。据此,模型能获得更加准确的候选
陷图像细节的区分能力,须引入ResNet结构。
框区域,从而提高模型对缺陷的定位精度。
x
x
P6
1f1 Ԅሥ 1f1 Ԅሥ Max pool
Relu
Relu
F↼x↽ Conv5_x 1f1, 256 3f3, 256 P5
F↼x↽ 3f3 Ԅሥ 3f3 Ԅሥ x
Relu ঽ࠱ 2f
Relu 1f1, 256 3f3, 256 P4
1f1 Ԅሥ 1f1 Ԅሥ Conv4_x
2f
H↼x↽/F↼x↽⇁x
H↼x↽ Relu Conv3_x 1f1, 256 3f3, 256 P3
(a) ʷᓊᎪፏ࠱ (b) ൵ࣀᎪፏ࠱ 2f
Conv2_x 1f1, 256 3f3, 256 P2
图 7 一般网络映射与残差块结构示意图
Fig. 7 General network mapping and residual FPN
Conv1
block structure schematic diagram
原始算法中 RPN 仅用提取的末层特征图进行
ᣥК
缺陷目标区域判别,网络层数的增多及多次卷积操 ڏϸ
作等,使缺陷特征更加丰富,但会使模型对缺陷的
定位更粗略。针对以上问题,将 ResNet50 与 FPN ResNet50
结合 [19] ,以提高模型对缺陷定位的精度。由自底 图 8 ResNet50+FPN 结构
向上、自顶向下和横向连接三部分组成,ResNet50 Fig. 8 ResNet50+FPN structure
与其结合如图 8 所示。ResNet50 提取的特征图为
ԥጳভଣϙ ྲढ़ڏ
Conv2_x∼Conv5_x,首先对 Conv5_x 进行降维,
再通过卷积处理得到特征图 P5;Conv5_x进行2 倍 ڍࠀܸ࠵ਖУᡚӝ۫
上采样后与经过降维处理的 Conv4_x 逐元素相加,
再经过卷积生成特征图 P4,以此类推;对特征图 P5
最大池化下采样获取特征图 P6。将 FPN 生成的不
同规格特征图 P2–P6 传入 RPN 生成锚定框,分别
设置 15种不同规格候选框,以更好地适应多种缺陷 ਖУᡚӝ۫
尺寸的识别与分类。候选框映射到相应特征图映射 图 9 ROI Align 操作
关系如下: Fig. 9 ROI Align operation