Page 52 - 《应用声学》2024年第1期
P. 52

48                                                                                   2024 年 1 月


                 beam domain data after the beamforming of the 3D imaging sonar beam to reduce the dimensionality of the
                 point cloud. Next, based on the beam direction of the 3D imaging sonar, the point cloud is projected to a depth
                 image and an intensity image to save the point cloud position information and intensity information respectively.
                 Then, the mixed image is constructed using the depth image and the intensity image as the first channel and the
                 second channel, and the mixed image is used as the input of the target classification network, thus converting
                 the target classification problem of 3D point clouds into the target classification problem of images. Finally, 3D
                 imaging sonar fast target classification was implemented using MobileNetV2. The experimental results show
                 that the projection method proposed in this paper can be used to complete the target classification task of
                 three-dimensional imaging sonar point cloud by an image classification network. Moreover, the convergence rate
                 of the mixed channel image is significantly faster than that of the separate intensity image and depth image,
                 and the target classification can be conducted in real time with the combination of the target recognition
                 network, achieving an accuracy of 91.13% on the real data set.
                 Keywords: Three-dimensional imaging sonar; Beamforming; Sonar image processing; Object classification

                                                               重要应用     [5] 。McKay 等 [6]  使用预训练的 CNNs 结
             0 引言
                                                               合支持向量机方法,与 VGG16、VGG19 等网络进
                                                               行了比较,表明了其在合成孔径图像识别中的有效
                 随着声呐技术的发展,基于声呐图像的目标探
                                                               性;Alshalali 等  [7]  采用迁移学习的方法,利用预训
             测和分类技术得到了广泛研究。在水下矿产资源
                                                               练的YOLO 模型,以45 frame/s 实现水下蛙人的实
             勘探、管道和电缆探测、海洋生物分类等领域具有
                                                               时检测;巩文静等         [8]  通过对 MobilNetV2 网络进行
             重要作用    [1−2] 。目前常用的声呐设备类型有侧扫声
                                                               改进,将三维成像声呐声学深度图像和同步采集的
             呐、前视二维声呐、合成孔径声呐以及三维成像声
                                                               光学图像作为网络输入,实现了更好的分类性能。
             呐等。侧扫声呐、前视二维声呐以及合成孔径声呐
                                                               然而,由于水下光学成像作用距离有限,可能会限制
             都属于二维成像声呐,其声呐图像是真实三维场景
             在二维斜距平面上的投影,相同距离不同高度的点                            该方法在实际应用中的具体表现,并且仅仅使用三
             在声呐图像中重合在一起,给后期的目标识别分类                            维成像声呐成像结果的深度图这一点也具有改进
             带来很大困难。三维成像声呐通过发射宽波束的声                            的空间。
             脉冲照射场景,使用二维接收面阵对回波信号进行                                与前视二维声呐、侧扫声呐和合成孔径声呐不
             采集,再经过波束形成获得三维空间中散射点的强                            同,三维成像声呐的成像结果是三维点云,包括场景
             度信息,可以实现对水下场景和目标的立体观测。                            中散射点的位置信息和强度信息。由于三维点云具
             三维成像声呐获取的目标信息相比二维声呐增加                             有高度稀疏性和不规则性,增加了点云处理难度,传
             了高度维度的信息,因此三维成像声呐更加适合用                            统的三维点云目标分类方法主要通过提取点云特
             于水下目标的分类识别。                                       征点的结构属性、强度属性、形状属性或者多种属
                 近年来,利用声呐图像实现水下目标分类识别                          性的组合进行对比实现点云的分类任务。基于深度
             是国内外学者的研究重点。例如,Dura等                 [3]  使用无     学习的方法也在点云数据处理任务上取得大的成
             监督马尔科夫分割算法分割出目标阴影并拟合为                             功,比如使用体素方法 Voxelnet          [9]  和使用点云特征
             椭圆,提取椭圆参数作为形状特征,实现了对水下目                           方法PointNet   [10−11] 。但是总体来说,点云数据处理
             标的分类;许文海等         [4]  利用水平集方法提取水下目               的计算量和复杂度远大于二维图像处理,其处理时
             标的轮廓,计算目标的不变矩特征,并将其作为后续                           间和功耗也会大于二维图像处理。
             目标分类的依据,取得了较好的效果。然而,上述方                               基于以上讨论,本文采用二维图像的目标分
             法基于人工设计并提取特征,对专业领域知识要求                            类方法而不是直接对点云进行处理来实现三维成
             较高,且在特征提取过程中会不可避免地丢失部分                            像声呐目标分类任务。首先,本文提出一种投影方
             关键信息,导致泛化能力不足。随着深度学习理论                            法,根据三维成像声呐的波束方向,将三维成像声
             的不断发展,卷积神经网络 (Convolutional neural                呐的成像结果三维点云投影为深度图和强度图,分
             networks, CNN) 在声呐图像目标分类领域得到了                     别保存三维点云的位置信息和强度信息。然后,利
   47   48   49   50   51   52   53   54   55   56   57