Page 240 - 《应用声学》2025年第2期
P. 240
500 2025 年 3 月
调整为 512 像素 ×512 像素;再对图像进行旋转、镜
2 检测图像扩充 像翻转、模糊、加噪声、调整亮度等方法单独处理和
多种方法融合处理,经扩充后数据集图像数量增加
由于缺陷数据集样本 (144 个缺陷样本) 较少, 至 2592 张,如图 5 所示。对扩充后的数据集进行缺
为提高模型的鲁棒性和泛化能力,防止模型出现过 陷类型标记,分为气孔、裂纹、群孔、疏松四类。将扩
拟合现象,对采集的缺陷图像进行扩充处理 [12−13] 。 充后的数据集进一步分为训练集、验证集和测试集,
为减少训练模型计算复杂度,先将原始图像的尺寸 其数量比例为8 : 1 : 1。
(a) Ԕݽڏϸ (b) വዺ (c) ԫ̝ (d) ԫ
(e) ᪫ϸ (f) ҫ٪ܦ (g) ᣁ90° (h) ᣁ180°
图 5 数据集图像扩增
Fig. 5 Dataset image augmentation
RPN
1f1
3f3 ڀॆࠀͯ
ᣁ૱ SoftmaxѬዝ٨ ᣁ૱ ϋᤥӝ۫
1f1 Ѭዝ
ࡇࠪ᧘Ꮆ
VGG16 ྲढ़ڏ
ࠀͯᅾॎ
ROI pooling
SoftmaxѬዝ٨ ѬዝᎶηए
R-CNN
图 6 Faster R-CNN 结构
Fig. 6 Faster R-CNN structure
口中心映射到图像的点为锚点,以锚点为中心生成
3 深度学习网络设计与优化 9 个大小和长宽比不同的锚定框,来满足大小、形
貌各异的缺陷,RPN 对锚定框进行卷积操作,判断
3.1 原始Faster R-CNN网络结构 是否为缺陷目标区域,并调整锚定框位置和大小;
图 6 显示,Faster R-CNN 网络结构主要由特 RCNN结合特征图与锚定框,采用非极大值抑制算
征提取网络 (VGG16)、RPN 和 RCNN 组成 [14−16] 。 法获取 ROI,然后通过 ROI Pooling 模块下采样得
VGG16对缺陷图像进行特征提取并生成特征图,该 到固定大小的特征图,再通过全连接层得到 ROI 的
特征图被共享用于RPN和R-CNN网络;RPN 采用 低维特征向量,最后输入 Softmax 分类器获取缺陷
滑动窗口的方式对特征图进行候选框区域选取,窗 种类置信度和识别位置。