Page 106 - 《应用声学》2022年第4期
P. 106

604                                                                                  2022 年 7 月


                      l
             式(5) 中,x 为第l 层输出的 n个特征图,x            l−1  为第 l    操作。3 个池化层中,池化核尺寸均为 3 × 3,池化
                                                  m
                      n
             层输入的 m个特征图,k 为卷积核,b为偏置项,⊗表                        核滑动步长和尺寸保持一致,因此输出特征图尺寸
             示卷积操作,f(·)为激活函数。                                  为原来的 1/3。卷积层和池化层搭配 SAME 方式的
                 反向传播以特征图预测类别概率值和真实类                           Padding 操作,即 0 值填充,可充分利用和处理输入
             别标签的损失函数作为误差,通过误差反向传播和                            特征图的边缘信息。设计两个全连接层,第一个全
             优化算法进行模型参数更新。首先对前向传播全连                            连接层把局部特征通过权值矩阵重新组合,第二个
             接层输出值进行 Softmax 函数处理,使其变成一个                       全连接层输出预测的类别。
             概率值。Softmax函数       [15]  定义为                         上述网络结构为本文建立的基本网络结构,同
                                    e y i                      时在基本网络结构中添加 Inception模块,设计改进
                            Y i =          ,            (6)
                                 ∑ N
                                        e  y n                 的 CNN 结构,如表 1 所示,用于提升三分类模型性
                                    n=1
                                                               能。Inception 模块前 3 个通道为卷积操作,第 4 个
             式 (6) 中:y i 代表全连接层的原始输出,i = 1, · · · ,
                                                               通道为池化操作,卷积核大小分别为 1 × 1、3 × 3
             N,N 代表分类的类别。
                                                               和5 × 5,每个通道的核个数均为 32,通过 SAME 方
                 选择交叉熵函数        [16]  作为损失函数,其定义为
                                                               式的 Padding 操作可以得到相同纬度的特征,然后
                         N
                        ∑
                  L = −     y i lg ˆy i + (1 − y i ) lg (1 − ˆy i ) ,  (7)  将这些特征直接拼接得到维度为 128维的输出特征
                        i=1                                    图,如图1所示。
             式(7)中:N 为某批次样本数,y i 为真实的类别标签,
                                                                            表 1  改进的 CNN 结构
             ˆ y i 为预测的类别概率值。
                                                                  Table 1   Improved convolutional neural
             2 卷积神经网络结构设计                                         network structure


                 在设计 CNN 网络结构时,对如何确定网络层                            层名称     核尺寸    滑动步长 Padding   特征图尺寸
             数、卷积层和池化层中的核尺寸和数目、全连接层                                 Input                        513×513×3
             的神经元数目没有严格的规定,一般是通过验证集                                Conv-1  3×3×16  3×3    SAME  171×171×16
             结果不断调整参数,确定最终网络结构,而如果在训                               Pool-1   3×3    3×3    SAME   57×57×16
             练初始就设定较为合理的数值,就可以节省大量的                                Conv-2  3×3×32  1×1    SAME   57×57×32
             调参时间,提高效率。大部分经典CNN模型希望通                               Pool-2   3×3    3×3    SAME   19×19×32
             过把卷积层堆叠得越来越多,提高模型性能,但是层                               Conv-3  3×3×64  1×1    SAME   19×19×64
             数太深会造成参数太多,计算复杂度加大。                                   Pool-3   3×3    3×3    SAME    7×7×64
                 本文利用 Inception 模块平衡网络的宽度和深                       Inception
                                                                                                  7×7×128
             度,防止过拟合的同时提高网络对尺度的适应性。                                 模块
             由于不同支路的感受野是不同的,所以输出特征图                                 Fc-1                            128
             有多尺度的信息在里面。选择小尺寸卷积核可以减                                 Fc-2                             2
             少卷积参数总数,增加模型容量和模型复杂度。卷
                                                                                   ᣥКྲढ़ڏ
             积核尺寸通常为奇数,方便以卷积核中心为标准进
             行滑动卷积,避免位置信息发生偏移,同时保证在进
                                                                   1f1f32     1f1f32     1f1f32     3f3f32
             行padding时,图像的两边依然相互对称。
                 对模型超参数调整,通过多次预训练确定CNN                                        5f5f32     3f3f32     1f1f32
             网络结构。3 个卷积层中卷积核尺寸均为 3 × 3,
             Conv-1 层卷积核滑动步长和卷积核尺寸保持一致,                                                  3f3f32
             有效减小输出特征图尺寸。卷积核个数分别为 16、
                                                                                  ᣥѣྲढ़ڏ
             32、64,均为 2 的次幂,方便硬件字节级存储管理,
             有利于显卡硬件计算过程中划分参数矩阵。为了更                                           图 1  Inception 模块
             多地保留特征图纹理信息,采用最大池化进行池化                                         Fig. 1 Inception module
   101   102   103   104   105   106   107   108   109   110   111