Page 142 - 《应用声学》2022年第3期
P. 142

464                                                                                  2022 年 5 月


             别表示步长为 1 和步长为 2 时的 Bottleneck 网络结                 1280,通道数的增加会消耗更多的计算资源;网络使
             构,当步长为1 时,需要将该网络结构的输出与上一                          用平均池化 Avgpool 降采样来减少特征数量,更多
             层的输出进行叠加,实现不同位置的信息整合。                             地保留图像的背景信息,不完全适用于水下目标分

                                                               类任务。
                      Input
                                                                   因此,为了增强网络在水下场景的适用性,充
                                             Input
                                                               分发挥深度分离卷积在特征提取中的优势,提高目
                    Conv 1T1,
                     ReLU6                                     标分类的精确度,本文在 MobileNetV2 网络的基础
                                           Conv 1T1,
                                            ReLU6              上进行了如下改进:(1) 为了在训练网络时进一步
                    Dwise 3T3,
                      ReLU6                                    减少计算资源、节约内存空间,在保证精度的前提
                                           Dwise 3T3,
                                            ReLU6              下充分考虑参数量和运算成本,借鉴文献 [14] 的方
                  Conv 1T1,Ḥlinear                             法,通过多次实验对比,本文去掉第 9层之后的网络
                                         Conv 1T1,Ḥlinear      层,并将该卷积层通道数由1280改为 128。(2) 为了

                       Add                                     适应水下目标分类任务,在保留目标特征信息的同
                    (a) stride=1         (b) stride=2          时提升网络的收敛速率,本文使用Flatten层进行数
                        图 2  Bottleneck 网络结构图                  据降维,将三维的输出转化为一维后,添加 Dropout
                     Fig. 2 Bottleneck network structure       层改善网络拟合,丢弃率设为 0.5,最后增加一个全
             1.2 改进的MobileNetV2网络                              连接层,得到最终的分类结果。
                                                                   图 3 为改进 MobileNetV2 网络的结构示意图,
                 MobilenetV2 网络使用 ImageNet 数据集进行
             训练,数据集图片数量达到 140 万张,而水下目标                         网络包括特征提取和分类两个部分。特征提取网络
             图像采集较为困难,获取的数据数量较少,直接使                            包括 1 个普通卷积、7 个具有反向残差结构的深度
             用原网络进行训练无法得到较好的拟合效果,且                             分离卷积和 1 个普通卷积,通过Flatten 层将三维特
             ImageNet 数据集共包含图像 1000 个类别,目标种                    征图转换为一维后,使用Dropout层改善网络拟合。
             类与水下目标差别悬殊,无法直接进行迁移学习。                            分类网络使用全连接层结构,从而得到每一个目标
             MobilenetV2 网络第 9 层的输出通道由 320 增加到                 属于各个类别的概率。


                                                 ྲढ़ଢԩᦊѬ
                                                                                               ѬዝᦊѬ
                               Bottleneck 1  Bottleneck 3  Bottleneck 5  Bottleneck 7

                                                                                  7
                             112    112   56    28     14    14    7     7
              224                                                                                      ᣥѣ
                  224       112   112    56    28     14    14    7     7        7
                        32      16    24    32    64     96    160   320     128                Dense
                       Conv 1
                 3                 Bottleneck 2  Bottleneck 4  Bottleneck 6  Conv 2  Flatten  Dropout
               Input

                                               图 3  改进 Mobilenetv2 网络结构图
                                        Fig. 3 Network structure of improved Mobilenetv2
                 网络的参数量和计算量作为两个重要的指标,                                         ∑
                                                                               D 1
                                                                      
                                                                                    2
                                                                      P cnn =    K · C l−1 · C l ,
                                                                      
                                                                      
                                                                                    l
             通常用来对网络模型的复杂度进行评估,参数量对                                   
                                                                               l=1                        (1)
                                                                               D 1
             应的是算法的空间复杂度,表示对计算机内存资源                                           ∑    2    2
                                                                      
                                                                      F cnn =    M · K · C l−1 · C l ,
                                                                      
                                                                                   l    l
             的消耗;计算量对应时间复杂度,关系到网络的运算                                           l=1
                                                                                       D 2
             时间。参数量和计算量主要来网络中的自卷积层和                                                   ∑
                                                                      P dense = F dense =  C l−1 · C l ,  (2)
             全连接层,计算过程可以表示为                                                           l=1
   137   138   139   140   141   142   143   144   145   146   147