Page 142 - 《应用声学》2022年第3期
P. 142
464 2022 年 5 月
别表示步长为 1 和步长为 2 时的 Bottleneck 网络结 1280,通道数的增加会消耗更多的计算资源;网络使
构,当步长为1 时,需要将该网络结构的输出与上一 用平均池化 Avgpool 降采样来减少特征数量,更多
层的输出进行叠加,实现不同位置的信息整合。 地保留图像的背景信息,不完全适用于水下目标分
类任务。
Input
因此,为了增强网络在水下场景的适用性,充
Input
分发挥深度分离卷积在特征提取中的优势,提高目
Conv 1T1,
ReLU6 标分类的精确度,本文在 MobileNetV2 网络的基础
Conv 1T1,
ReLU6 上进行了如下改进:(1) 为了在训练网络时进一步
Dwise 3T3,
ReLU6 减少计算资源、节约内存空间,在保证精度的前提
Dwise 3T3,
ReLU6 下充分考虑参数量和运算成本,借鉴文献 [14] 的方
Conv 1T1,Ḥlinear 法,通过多次实验对比,本文去掉第 9层之后的网络
Conv 1T1,Ḥlinear 层,并将该卷积层通道数由1280改为 128。(2) 为了
Add 适应水下目标分类任务,在保留目标特征信息的同
(a) stride=1 (b) stride=2 时提升网络的收敛速率,本文使用Flatten层进行数
图 2 Bottleneck 网络结构图 据降维,将三维的输出转化为一维后,添加 Dropout
Fig. 2 Bottleneck network structure 层改善网络拟合,丢弃率设为 0.5,最后增加一个全
1.2 改进的MobileNetV2网络 连接层,得到最终的分类结果。
图 3 为改进 MobileNetV2 网络的结构示意图,
MobilenetV2 网络使用 ImageNet 数据集进行
训练,数据集图片数量达到 140 万张,而水下目标 网络包括特征提取和分类两个部分。特征提取网络
图像采集较为困难,获取的数据数量较少,直接使 包括 1 个普通卷积、7 个具有反向残差结构的深度
用原网络进行训练无法得到较好的拟合效果,且 分离卷积和 1 个普通卷积,通过Flatten 层将三维特
ImageNet 数据集共包含图像 1000 个类别,目标种 征图转换为一维后,使用Dropout层改善网络拟合。
类与水下目标差别悬殊,无法直接进行迁移学习。 分类网络使用全连接层结构,从而得到每一个目标
MobilenetV2 网络第 9 层的输出通道由 320 增加到 属于各个类别的概率。
ྲढ़ଢԩᦊѬ
ѬዝᦊѬ
Bottleneck 1 Bottleneck 3 Bottleneck 5 Bottleneck 7
7
112 112 56 28 14 14 7 7
224 ᣥѣ
224 112 112 56 28 14 14 7 7 7
32 16 24 32 64 96 160 320 128 Dense
Conv 1
3 Bottleneck 2 Bottleneck 4 Bottleneck 6 Conv 2 Flatten Dropout
Input
图 3 改进 Mobilenetv2 网络结构图
Fig. 3 Network structure of improved Mobilenetv2
网络的参数量和计算量作为两个重要的指标, ∑
D 1
2
P cnn = K · C l−1 · C l ,
l
通常用来对网络模型的复杂度进行评估,参数量对
l=1 (1)
D 1
应的是算法的空间复杂度,表示对计算机内存资源 ∑ 2 2
F cnn = M · K · C l−1 · C l ,
l l
的消耗;计算量对应时间复杂度,关系到网络的运算 l=1
D 2
时间。参数量和计算量主要来网络中的自卷积层和 ∑
P dense = F dense = C l−1 · C l , (2)
全连接层,计算过程可以表示为 l=1