Page 27 - 《应用声学》2021年第4期
P. 27

第 40 卷 第 4 期    逄岩等: 基于 Gammatone 滤波器组时频谱和卷积神经网络的海底底质分类                                     511


                                                               1.1  Gammatone滤波器组
             0 引言
                                                                   Gammatone 滤波器组       [14]  最早用于描述听觉
                                                               系统脉冲响应,是一个标准的耳蜗听觉线性滤波器
                 利用采样工具进行站点式取样底质数据完成
             海底底质的探测与分类虽然准确直观,却存在着                             组,其时域表达式为
             效率低以及不适合大规模调查等缺点                   [1] 。底质数            g i (f i , t) = ct m−1  e −2πb i t  cos(2πf i t + ϕ i ),
             据的获取是完成底质分类的基础,通过侧扫声呐获                                          t > 0, 1 6 i 6 N,            (1)
             取底质数据具有操作简单、覆盖面积广以及分辨率
                                                               其中,c 为滤波器增益,m为滤波器阶数,f i 为第 i 个
             高等优点。目前利用侧扫声呐获取底质数据进行
                                                               滤波器的中心频率;ϕ i 为第 i 个滤波器的初始相位,
             底质分类主要有两种研究思路:一是提取海底底质
                                                               由于初始相位对听觉系统影响较小,同时为简化滤
             的侧扫声呐图像纹理等特征完成底质分类                    [2−3] ;二
                                                               波器组模型,所有 ϕ i 取为 0;N 为 Gammatone 滤波
             是校正获取的侧扫声呐数据得到只与底质类型有
                                                               器的个数;b i 为第 i 个滤波器的衰减因子,与对应滤
             关的散射强度数据,提取有效分类特征实现底质
                                                               波器等效矩形带宽 ERB(f i ) 有关,同时决定脉冲响
             分类  [4−5] 。
                                                               应的衰减速度,其中,b i = 1.019ERB(f i ),ERB(f i )
                 模拟耳蜗听觉模型的 Gammatone 滤波器组
                                                               如式(2)所示:
             (Gammatone filter banks, GFB) 具有较高语声识
                                                                                      (              )
                                                                                               f i
             别准确率和抗噪能力,能够有效分析非平稳信号,                                  ERB(f i ) = 24.7 × 4.37 ×    + 1 .   (2)
                                                                                             1000
             描述信号的瞬间变化           [6−7] 。由于底质存在凹凸不              各个滤波器的中心频率在 ERB 域上等间隔分布。
             平等非均匀性特征,声波会在底质表面发生随机散                            滤波器个数为 64,中心频率范围为 50 ∼ 128 Hz 时
             射,从而导致底质反向散射的声波信号具有非平稳                            Gammatone 滤波器组的幅频响应如图 1(a) 所示,
             性以及瞬变特性,因此 Gammatone 滤波器组可以                       不同通道数时各通道中心频率在 ERB 域的变化如
             用于分析底质反向散射信号。近年来,以卷积神经                            图 1(b) 所示,不同中心频率时 Gammatone 滤波器
             网络 (Convolutional neural networks, CNN) 为主        时域波形如图1(c)所示。
             的深度学习方法在目标检测             [8] 、人脸识别   [9]  以及文
                                                               1.2  Gammatone滤波器组时频谱
             本分类   [10]  等领域得到广泛应用,将 CNN 方法应用
                                                                   时频分析是将信号时域和频域相结合分析信
             到海底底质分类逐步成为一种研究趋势。Berthold
                                                               号的时频联合特征,克服只能在时域或频域分析信
             等  [11]  通过 GoogLeNet 对砾石、泥、沙和混合底质
                                                               号的缺点。传统的时频分析方法包含短时傅里叶变
             4 种底质进行初步分类; Luo 等           [12]  利用深层和浅
                                                               换 (Short time Fourier transform, STFT)、小波变
             层 CNN 模型对石、泥和沙 3 种底质进行分类比较,
                                                               换以及 Wigner-Ville 分布等。但 STFT 的分析结果
             在取得优秀的分类表现的同时发现浅层 CNN 模型
                                                               易受窗函数的影响,同时窗口大小的设置难以确定;
             的分类性能优于深层 CNN 模型。上述研究验证了
                                                               小波变换存在小波基选择的难点;Wigner-Ville 分
             CNN 方法在底质分类中的可行性以及有效性,为
                                                               布虽然具有良好的时频聚焦特性,但同时容易产生
             CNN方法在底质分类中的深入研究奠定了基础。
                                                               交叉项的干扰       [15−16] 。由于底质信号的非平稳性和
                 本文将 CNN 方法与底质信号分析相结合,利
                                                               瞬变特性以及 GFB 在分析上述特性具有显著优势,
             用构造的 CNN 模型学习 Gammatone 滤波器组分
                                                               同时GFB很好地模拟了耳蜗基底膜,兼具良好的频
             析计算的底质信号时频谱进行底质的分类识别,最
                                                               率选择特性和频谱分析特性,能够对底质信号低频
             终取得良好的分类效果。
                                                               部分保持较高频率分辨率,同时对底质信号高频部

             1 Gammatone滤波器                                    分信号保持较高的时间分辨率。因此利用 GFB 在
                                                               能够对底质信号实现更为精细化时频分析的同时,
                 Gammatone滤波器(Gammatone filter, GTF)            在分析过程中也避免产生交叉项的干扰。
             是一种近似于Revcor函数的解析数学函数,在保留                             由图 2 所示,本文设计的底质信号 GFB 时频谱
             完整的幅度信息的同时还兼备完整的相位信息                      [13] 。  计算步骤如下:
   22   23   24   25   26   27   28   29   30   31   32