Page 143 - 《应用声学》2022年第3期
P. 143
第 41 卷 第 3 期 巩文静等: 基于改进 MobilenetV2 网络的声光图像融合水下目标分类方法 465
其中,P 和F 分别代表模型的参数量和计算量,下标 将两个模块输出的特征图进行融合,实现两种图像
的信息交流。特征提取使用的网络主干为 1.2 节中
cnn 和 dense 分别表示卷积层和全连接层,M l 和 K l
分别表示输入图片的尺寸和网络使用的卷积核大 改进的 MobileNetV2 网络,在网络的特征提取过程
小,C l−1 和 C l 为卷积运算中输入、输出特征图的通 中,图像的原始信息更多地体现在网络的浅层特征
道数,D 1 、D 2 为网络中的卷积层与全连接层个数。 当中,网络的深层特征较为抽象,具有更多的分类信
使用式 (1) ∼ (2) 对原始及改进后的 MobileNetV2 息。因此,根据网络的结构特点,本文选择在网络的
网络模型进行复杂度计算,计算结果如表1所示。 深层位置进行特征融合,将网络最后一个卷积层的
表 1 原始及改进 MobileNetV2 网络复杂度 输出作为待融合特征,使用融合操作的结果实现水
Table 1 Network complexity of original 下目标分类,从而达到更高的分类准确率。
and improved Mobilenetv2 融合分类网络模型如图 4 所示,该网络由特征
提取、特征融合、融合特征提取、分类 4 个部分组成。
网络模型 参数量/M 计算量/M
声学图像和光学图像分别送入改进的MobileNetV2
MobileNetV2 网络 3.4 300
网络,特征提取部分包括一个普通卷积、具有反向
改进 MobileNetV2 网络 1.9 230
残差结构的深度分离卷积及其之后的卷积层。在网
MobileNetV2 网络模型需要训练的参数数量
络的最后一个卷积层位置,将输出的特征图按通道
约为3.4 M,改进后网络模型的参数数量约为1.9 M,
对应实现特征融合,这里应用的融合算法是通道拼
与原始网络相比,模型参数数量减少了近一倍。与
接(concatenate),融合过程的数学表达式为
此同时,改进的 MobileNetV2 网络计算量为 230 M,
相比原始网络的计算量也有一定数量的减少。由此
output =
可见,改进后的网络复杂度有所减小,能够提高网络 optical
H 2 (H 1 (X optical ), H 1 acoustic (X acoustic )), (3)
运算效率,进一步节约计算资源。
其中,X optical 和X acoustic 表示输入的光学图像和声
2 声光图像融合分类网络 optical
学图像;H 和 H acoustic 表示光学图像和声学
1 1
声学图像能够大范围获取,效率较高,光学图 图像从输入到最后一个卷积层之间的特征提取网
像的高分辨率能够实现对目标细节的描述。为了实 络;H 2 代表融合操作的通道拼接算法;output 为融
现二者的优势互补,提出一种声光图像融合分类网 合后输出的新特征,用以实现目标分类。分类过程
络模型。目前,对异源图像的联合处理网络主要有 可以表示为
输入前融合和输入后融合两种 [19] ,前者是将图像进
K = S(output), (4)
行融合处理后再输入特征提取网络,此种方式通常
需要改变第一层卷积的数量,使得训练结果变差;后 其中,K 为分类结果,S 代表 Softmax 分类函数,将
者是对图像进行特征提取之后,将特征提取网络的 网络最后一层的输出转化为输入图像属于各类别
中间层信息融合 [20] ,能够保证网络训练的准确性。 的概率,公式为
本文使用输入后融合的思想,将水下目标的声、
/ ∑
j
光两种图像并行输入网络进行特征提取,在某一层 S i = e i e . (5)
j
ܦڏ
ᣥѣ
Аڏ
Fusion Flatten Dense
Conv Bottleneck Conv
图 4 基于改进 MobileNetV2 的融合分类网络
Fig. 4 Fusion classification network based on improved Mobilenetv2