Page 141 - 《应用声学》2022年第3期
P. 141

第 41 卷 第 3 期     巩文静等: 基于改进 MobilenetV2 网络的声光图像融合水下目标分类方法                                   463


                                                               单一的光学或声学图像数据集,通过人工提取特征
             0 引言                                              或使用卷积神经网络完成对目标的分类。但是,单

                                                               一数据集对目标的描述具有一定限制,且卷积神经
                 水下目标成像及分类可以通过不同的成像技
                                                               网络模型较为复杂,网络的计算和分类速度较慢。
             术实现,利用光学传感器获得的图像分辨率较高、
                                                               因此,如何降低模型复杂度,节约计算资源,获得更
             目标较为直观       [1] ,在目标分类研究中有重要应用。
                                                               好的分类效果,都是亟待解决的关键问题。
             Gleason等  [2]  使用监督分类的方法对水下光学图像
                                                                   为了改善网络的分类性能,适应小样本背景下
             中的目标和海床进行分类,将海床的局部地形或高
                                                               的水下目标分类任务,主要从以下角度解决上述问
             度作为附加特征添加到分类器中,具有一定的有效
                                                               题。首先,选择轻量化的 MobilenetV2 网络并对其
             性;Pramunendar等    [3]  提出了一种应用于反向传播
                                                               结构进行改进,减小网络的参数量,进一步提高网络
             神经网络的图像增强模型,通过选择合适的插值方
                                                               运算效率。其次,在改进网络的基础上设计并行网
             法和反向传播神经网络结构提高图像分辨率,取得
                                                               络结构,将采集的声、光学图像真实数据集同时输
             了较高的分类准确率;王士龙等               [4]  提取目标的边界
                                                               入网络,采用中间层融合策略,利用融合特征得到最
             矩,利用改进的 FCM 聚类算法较好地实现了对水
                                                               终的分类结果。该方法规避了单一数据集对目标描
             下目标的分类识别。
                                                               述的限制,充分利用声、光学两种图像各自的优势
                 虽然以上利用光图实现水下目标分类已经取
                                                               以及MobilenetV2网络参数少、轻量化的特点,在节
             得了一定成果,但是受成像条件复杂性的影响,水下
                                                               约网络计算资源的同时,提高了算法的分类准确率。
             光成像作用距离近,图像对比度较差。由于声呐的
             探测距离较远,成像范围较大              [5−6] ,声成像技术的          1 改进MobilenetV2网络
             不断发展使得利用声呐图像进行目标分析成为可
             能  [7−9] 。Sinai等  [10]  利用C-V轮廓算法将声呐图像            1.1  MobilenetV2网络模型
             分割为目标及阴影两部分,通过人工提取几何特征                                MobileNet 是 Google 于 2017 年提出的新型轻

             来实现水下目标分类;Williams          [11]  利用卷积神经网         量化网络     [13] ,MobileNetV2 与其相比,具有较少的
             络将水声图像分为有目标和无目标两类,取得了满                            网络参数数量和更低的运算成本,相比普通的全
             意的效果;朱可卿等          [12]  使用高斯混合模型对声图              卷积网络能够减少 8 ∼ 9 倍的计算量,网络性得
             的阴影部分进行提取,设计融合分类器实现对水下                            到了进一步改善,与 VGG16 等常用网络相比具有
             沉底小目标的分类,分类性能较好。                                  低消耗和实时性等优点,符合目标分类任务的要
                 然而,受声呐自身技术参数的限制以及水下噪                          求 [14] 。MobileNetV2网络包括普通卷积(Conv)、反
             声、混响的影响,声成像的清晰度较低,且声图获取                           向残差结构的深度分离卷积 (Bottleneck) 和平均池
             较为困难。现有水下目标分类方法的研究大多依靠                            化(Avgpool)几部分,网络结构如图1所示。

                               Bottleneck 1  Bottleneck 3  Bottleneck 5  Bottleneck 7
                             112   112   56   28    14    14   7     7       7         7
                                                                                                     1
                                                                                                        ᣥѣ
                224
                                                                                                    1
                                                                                             1280
                   224      112   112   56   28    14   14    7     7       7         7
                         32     16   24    32   64    96   160   320    128      1280        Conv
                  3     Conv 1    Bottleneck 2  Bottleneck 4  Bottleneck 6  Conv 2  Avgpool
                 Input
                                                 图 1  MobileNetV2 网络结构
                                            Fig. 1 Network structure of Mobilenetv2
                 Bottleneck结构是MobileNetV2网络的核心部                征,最后使用 1×1 的卷积来压缩数据                [16] ,两个普

             分,每个 Bottleneck 由两个普通卷积和一个深度分                     通卷积分别使用ReLU6和Linear函数进行激活,深
             离卷积(Dwise)组成      [15] 。该结构首先通过1×1的卷              度分离卷积使用标准化 BN 层             [17]  和线性整流函数
             积进行维度扩展,再用 3×3 的深度分离卷积提取特                         ReLU6  [18]  进行正则化和激活。图 2(a) 和图 2(b) 分
   136   137   138   139   140   141   142   143   144   145   146