Page 143 - 《应用声学》2022年第3期
P. 143

第 41 卷 第 3 期     巩文静等: 基于改进 MobilenetV2 网络的声光图像融合水下目标分类方法                                   465


             其中,P 和F 分别代表模型的参数量和计算量,下标                         将两个模块输出的特征图进行融合,实现两种图像
                                                               的信息交流。特征提取使用的网络主干为 1.2 节中
             cnn 和 dense 分别表示卷积层和全连接层,M l 和 K l
             分别表示输入图片的尺寸和网络使用的卷积核大                             改进的 MobileNetV2 网络,在网络的特征提取过程
             小,C l−1 和 C l 为卷积运算中输入、输出特征图的通                    中,图像的原始信息更多地体现在网络的浅层特征
             道数,D 1 、D 2 为网络中的卷积层与全连接层个数。                      当中,网络的深层特征较为抽象,具有更多的分类信
             使用式 (1) ∼ (2) 对原始及改进后的 MobileNetV2                息。因此,根据网络的结构特点,本文选择在网络的
             网络模型进行复杂度计算,计算结果如表1所示。                            深层位置进行特征融合,将网络最后一个卷积层的

                 表 1  原始及改进 MobileNetV2 网络复杂度                  输出作为待融合特征,使用融合操作的结果实现水
                Table 1  Network complexity of original        下目标分类,从而达到更高的分类准确率。
                and improved Mobilenetv2                           融合分类网络模型如图 4 所示,该网络由特征
                                                               提取、特征融合、融合特征提取、分类 4 个部分组成。
                      网络模型           参数量/M     计算量/M
                                                               声学图像和光学图像分别送入改进的MobileNetV2
                  MobileNetV2 网络       3.4       300
                                                               网络,特征提取部分包括一个普通卷积、具有反向
                 改进 MobileNetV2 网络     1.9       230
                                                               残差结构的深度分离卷积及其之后的卷积层。在网
                 MobileNetV2 网络模型需要训练的参数数量
                                                               络的最后一个卷积层位置,将输出的特征图按通道
             约为3.4 M,改进后网络模型的参数数量约为1.9 M,
                                                               对应实现特征融合,这里应用的融合算法是通道拼
             与原始网络相比,模型参数数量减少了近一倍。与
                                                               接(concatenate),融合过程的数学表达式为
             此同时,改进的 MobileNetV2 网络计算量为 230 M,
             相比原始网络的计算量也有一定数量的减少。由此
                                                                 output =
             可见,改进后的网络复杂度有所减小,能够提高网络                                   optical
                                                                 H 2 (H 1   (X optical ), H 1 acoustic (X acoustic )),  (3)
             运算效率,进一步节约计算资源。
                                                               其中,X optical 和X acoustic 表示输入的光学图像和声
             2 声光图像融合分类网络                                                optical
                                                               学图像;H          和 H  acoustic  表示光学图像和声学
                                                                         1         1
                 声学图像能够大范围获取,效率较高,光学图                          图像从输入到最后一个卷积层之间的特征提取网
             像的高分辨率能够实现对目标细节的描述。为了实                            络;H 2 代表融合操作的通道拼接算法;output 为融
             现二者的优势互补,提出一种声光图像融合分类网                            合后输出的新特征,用以实现目标分类。分类过程
             络模型。目前,对异源图像的联合处理网络主要有                            可以表示为
             输入前融合和输入后融合两种              [19] ,前者是将图像进
                                                                               K = S(output),             (4)
             行融合处理后再输入特征提取网络,此种方式通常
             需要改变第一层卷积的数量,使得训练结果变差;后                           其中,K 为分类结果,S 代表 Softmax 分类函数,将
             者是对图像进行特征提取之后,将特征提取网络的                            网络最后一层的输出转化为输入图像属于各类别
             中间层信息融合        [20] ,能够保证网络训练的准确性。                的概率,公式为
                 本文使用输入后融合的思想,将水下目标的声、
                                                                                     / ∑
                                                                                             j
             光两种图像并行输入网络进行特征提取,在某一层                                           S i = e i    e .            (5)
                                                                                          j

                                ܦڏ

                                                                                       ᣥѣ

                                Аڏ
                                                                   Fusion  Flatten Dense
                                         Conv     Bottleneck  Conv
                                           图 4  基于改进 MobileNetV2 的融合分类网络
                                 Fig. 4 Fusion classification network based on improved Mobilenetv2
   138   139   140   141   142   143   144   145   146   147   148