Page 142 - 《应用声学》2022年第3期

P. 142

464 2022 年 5 月

别表示步长为 1 和步长为 2 时的 Bottleneck 网络结 1280，通道数的增加会消耗更多的计算资源；网络使
构，当步长为1 时，需要将该网络结构的输出与上一用平均池化 Avgpool 降采样来减少特征数量，更多
层的输出进行叠加，实现不同位置的信息整合。地保留图像的背景信息，不完全适用于水下目标分

类任务。
Input
因此，为了增强网络在水下场景的适用性，充
Input
分发挥深度分离卷积在特征提取中的优势，提高目
Conv 1T1,
ReLU6 标分类的精确度，本文在 MobileNetV2 网络的基础
Conv 1T1,
ReLU6 上进行了如下改进：(1) 为了在训练网络时进一步
Dwise 3T3,
ReLU6 减少计算资源、节约内存空间，在保证精度的前提
Dwise 3T3,
ReLU6 下充分考虑参数量和运算成本，借鉴文献 [14] 的方
Conv 1T1,Ḥlinear 法，通过多次实验对比，本文去掉第 9层之后的网络
Conv 1T1,Ḥlinear 层，并将该卷积层通道数由1280改为 128。(2) 为了

Add 适应水下目标分类任务，在保留目标特征信息的同
(a) stride=1 (b) stride=2 时提升网络的收敛速率，本文使用Flatten层进行数
图 2 Bottleneck 网络结构图据降维，将三维的输出转化为一维后，添加 Dropout
Fig. 2 Bottleneck network structure 层改善网络拟合，丢弃率设为 0.5，最后增加一个全
1.2 改进的MobileNetV2网络连接层，得到最终的分类结果。
图 3 为改进 MobileNetV2 网络的结构示意图，
MobilenetV2 网络使用 ImageNet 数据集进行
训练，数据集图片数量达到 140 万张，而水下目标网络包括特征提取和分类两个部分。特征提取网络
图像采集较为困难，获取的数据数量较少，直接使包括 1 个普通卷积、7 个具有反向残差结构的深度
用原网络进行训练无法得到较好的拟合效果，且分离卷积和 1 个普通卷积，通过Flatten 层将三维特
ImageNet 数据集共包含图像 1000 个类别，目标种征图转换为一维后，使用Dropout层改善网络拟合。
类与水下目标差别悬殊，无法直接进行迁移学习。分类网络使用全连接层结构，从而得到每一个目标
MobilenetV2 网络第 9 层的输出通道由 320 增加到属于各个类别的概率。

ྲढ़ଢԩᦊѬ
ѬዝᦊѬ
Bottleneck 1 Bottleneck 3 Bottleneck 5 Bottleneck 7

7
112 112 56 28 14 14 7 7
224 ᣥѣ
224 112 112 56 28 14 14 7 7 7
32 16 24 32 64 96 160 320 128 Dense
Conv 1
3 Bottleneck 2 Bottleneck 4 Bottleneck 6 Conv 2 Flatten Dropout
Input

图 3 改进 Mobilenetv2 网络结构图
Fig. 3 Network structure of improved Mobilenetv2
网络的参数量和计算量作为两个重要的指标，  ∑
D 1

2
P cnn = K · C l−1 · C l ,


l
通常用来对网络模型的复杂度进行评估，参数量对 
l=1 (1)
D 1
应的是算法的空间复杂度，表示对计算机内存资源  ∑ 2 2

F cnn = M · K · C l−1 · C l ,

 l l
的消耗；计算量对应时间复杂度，关系到网络的运算 l=1
D 2
时间。参数量和计算量主要来网络中的自卷积层和 ∑
P dense = F dense = C l−1 · C l , (2)
全连接层，计算过程可以表示为 l=1

137 138 139 140 141 142 143 144 145 146 147