Page 145 - 《应用声学》2022年第3期
P. 145
第 41 卷 第 3 期 巩文静等: 基于改进 MobilenetV2 网络的声光图像融合水下目标分类方法 467
为了方便数据处理,将三维图像距离向上散射 4.1 不同分类网络在本文数据集上的分类性能
强度最强的点投影到二维平面,用其深度值作为该 分别使用 VGG16、Resnet50、MobileNetV2 以
点的像素值,得到目标的深度图。将摄像机拍摄的 及改进的 MobileNetV2 网络对本文数据集 (以光学
图像作为光学图像数据集,三维图像处理后得到的 图像为例) 进行分类,验证几种分类网络对水下目
深度图作为声学图像数据集。两个数据集中的图 标的分类性能。将水下目标图像输入网络进行训
像成对存在,数据格式为三通道 RGB图像,共2196 练和测试,在网络训练前,应用高斯分布 G(µ, σ )
2
张,包括铁框、蛙人、绳子、绳子拖曳的小球、桥墩 5 对网络中的所有参数进行随机初始化,其中 µ = 0,
类水下目标,部分数据集图像如图7所示。 σ = 1。采用 Optimizers 优化器对整个网络的参数
进行优化,学习率设为 0.00001。在训练数据中每次
4 实验结果与分析
随机抽取16张图像训练网络,迭代次数为100,网络
为了验证所提网络在水下目标分类任务中的 采用代价函数选用分类交叉熵。几种模型的分类结
可行性,设计了以下实验。首先采集水下目标图 果可见表 3,其中,分类时间是测试过程中对一张图
像,制作实验数据集。(1) 在光学图像数据集上进 像得出分类结果所用的平均时间。
行实验,对比VGG16、Resnet50、MobileNetV2以及
表 3 目标分类网络性能比较
改进的MobileNetV2网络对 5种水下目标的分类性
Table 3 Comparison of performance of
能,验证了改进 MobileNetV2 网络在水下目标分类
target classification network
任务中的适用性;(2) 利用改进的 MobileNetV2 网
络以及提出的声光图像融合分类网络模型对水下 单通道网络 准确率/% 分类时间/ms 参数量/M
目标进行分类,验证融合网络结构对水下目标分类 VGG16 93.7 12 65.08
准确率的提高;(3) 使用不同融合算法在不同位置 Resnet50 80.3 7 45.75
进行融合,利用融合网络对目标图像进行分类,讨 Mobilenetv2 92.2 3 2.28
论融合位置及融合算法对分类准确率的影响;(4)在 改进 Mobilenetv2 93.1 2 1.92
数据缺失的条件进行融合网络的分类实验,记录网
络的分类准确率,验证网络的鲁棒性。以下实验使 由表 3 可以看出,分类准确率最高的是VGG16
用的所有网络均基于 Keras 深度学习框架搭建,并 网络,可以达到 93.7%,但是其分类时间最长,参
利用CUDNN进行加速处理。实验计算机CPU 为6 数量最大,计算代价较高。Resnet50 网络的分类时
核i7-10750H、Win10操作系统、GPU为RTX2070。 间和计算代价有所减少,但分类准确率较低,Mo-
在采集的 5 类水下目标图像中,随机抽取 20% bilenetV2网络与之相比准确率有所提高,在参数量
的目标数据作为测试集,余下的作为训练集。为了 上也具有一定优势。综合考虑分类准确率、时间、参
确保目标分类的准确性,在抽取数据时需要将声学 数量几种指标,MobilNetV2 网络要优于另外两种
图像和光学图像数据一一对应。训练集和测试集的 网络模型。相比于原始MobilNetV2网络,改进后的
样本组成如表2所示。 网络得到的分类准确率更高,且分类时间、参数量
均有减小,说明本文做出的改进对模型性能有一定
表 2 训练集和测试集样本数量
的提升,更加适用于水下目标分类任务。
Table 2 Sample number of training set
and test set 4.2 融合前后网络性能比较
分别使用改进的 MobileNetV2 网络对声学图
目标类别 训练集 测试集
像和光学图像进行分类,之后应用本文提出的融合
铁框 211 53
蛙人 451 113 分类网络将对应的声学图像和光学图像成对输入
绳子 243 61 网络进行训练和测试,对水下目标图像进行分类。
绳子 + 球 115 29 网络超参数的设置均与前述实验一致,训练过程曲
桥墩 736 184
线如图8所示。