Page 141 - 《应用声学》2022年第3期
P. 141
第 41 卷 第 3 期 巩文静等: 基于改进 MobilenetV2 网络的声光图像融合水下目标分类方法 463
单一的光学或声学图像数据集,通过人工提取特征
0 引言 或使用卷积神经网络完成对目标的分类。但是,单
一数据集对目标的描述具有一定限制,且卷积神经
水下目标成像及分类可以通过不同的成像技
网络模型较为复杂,网络的计算和分类速度较慢。
术实现,利用光学传感器获得的图像分辨率较高、
因此,如何降低模型复杂度,节约计算资源,获得更
目标较为直观 [1] ,在目标分类研究中有重要应用。
好的分类效果,都是亟待解决的关键问题。
Gleason等 [2] 使用监督分类的方法对水下光学图像
为了改善网络的分类性能,适应小样本背景下
中的目标和海床进行分类,将海床的局部地形或高
的水下目标分类任务,主要从以下角度解决上述问
度作为附加特征添加到分类器中,具有一定的有效
题。首先,选择轻量化的 MobilenetV2 网络并对其
性;Pramunendar等 [3] 提出了一种应用于反向传播
结构进行改进,减小网络的参数量,进一步提高网络
神经网络的图像增强模型,通过选择合适的插值方
运算效率。其次,在改进网络的基础上设计并行网
法和反向传播神经网络结构提高图像分辨率,取得
络结构,将采集的声、光学图像真实数据集同时输
了较高的分类准确率;王士龙等 [4] 提取目标的边界
入网络,采用中间层融合策略,利用融合特征得到最
矩,利用改进的 FCM 聚类算法较好地实现了对水
终的分类结果。该方法规避了单一数据集对目标描
下目标的分类识别。
述的限制,充分利用声、光学两种图像各自的优势
虽然以上利用光图实现水下目标分类已经取
以及MobilenetV2网络参数少、轻量化的特点,在节
得了一定成果,但是受成像条件复杂性的影响,水下
约网络计算资源的同时,提高了算法的分类准确率。
光成像作用距离近,图像对比度较差。由于声呐的
探测距离较远,成像范围较大 [5−6] ,声成像技术的 1 改进MobilenetV2网络
不断发展使得利用声呐图像进行目标分析成为可
能 [7−9] 。Sinai等 [10] 利用C-V轮廓算法将声呐图像 1.1 MobilenetV2网络模型
分割为目标及阴影两部分,通过人工提取几何特征 MobileNet 是 Google 于 2017 年提出的新型轻
来实现水下目标分类;Williams [11] 利用卷积神经网 量化网络 [13] ,MobileNetV2 与其相比,具有较少的
络将水声图像分为有目标和无目标两类,取得了满 网络参数数量和更低的运算成本,相比普通的全
意的效果;朱可卿等 [12] 使用高斯混合模型对声图 卷积网络能够减少 8 ∼ 9 倍的计算量,网络性得
的阴影部分进行提取,设计融合分类器实现对水下 到了进一步改善,与 VGG16 等常用网络相比具有
沉底小目标的分类,分类性能较好。 低消耗和实时性等优点,符合目标分类任务的要
然而,受声呐自身技术参数的限制以及水下噪 求 [14] 。MobileNetV2网络包括普通卷积(Conv)、反
声、混响的影响,声成像的清晰度较低,且声图获取 向残差结构的深度分离卷积 (Bottleneck) 和平均池
较为困难。现有水下目标分类方法的研究大多依靠 化(Avgpool)几部分,网络结构如图1所示。
Bottleneck 1 Bottleneck 3 Bottleneck 5 Bottleneck 7
112 112 56 28 14 14 7 7 7 7
1
ᣥѣ
224
1
1280
224 112 112 56 28 14 14 7 7 7 7
32 16 24 32 64 96 160 320 128 1280 Conv
3 Conv 1 Bottleneck 2 Bottleneck 4 Bottleneck 6 Conv 2 Avgpool
Input
图 1 MobileNetV2 网络结构
Fig. 1 Network structure of Mobilenetv2
Bottleneck结构是MobileNetV2网络的核心部 征,最后使用 1×1 的卷积来压缩数据 [16] ,两个普
分,每个 Bottleneck 由两个普通卷积和一个深度分 通卷积分别使用ReLU6和Linear函数进行激活,深
离卷积(Dwise)组成 [15] 。该结构首先通过1×1的卷 度分离卷积使用标准化 BN 层 [17] 和线性整流函数
积进行维度扩展,再用 3×3 的深度分离卷积提取特 ReLU6 [18] 进行正则化和激活。图 2(a) 和图 2(b) 分