Page 106 - 《应用声学》2022年第4期
P. 106
604 2022 年 7 月
l
式(5) 中,x 为第l 层输出的 n个特征图,x l−1 为第 l 操作。3 个池化层中,池化核尺寸均为 3 × 3,池化
m
n
层输入的 m个特征图,k 为卷积核,b为偏置项,⊗表 核滑动步长和尺寸保持一致,因此输出特征图尺寸
示卷积操作,f(·)为激活函数。 为原来的 1/3。卷积层和池化层搭配 SAME 方式的
反向传播以特征图预测类别概率值和真实类 Padding 操作,即 0 值填充,可充分利用和处理输入
别标签的损失函数作为误差,通过误差反向传播和 特征图的边缘信息。设计两个全连接层,第一个全
优化算法进行模型参数更新。首先对前向传播全连 连接层把局部特征通过权值矩阵重新组合,第二个
接层输出值进行 Softmax 函数处理,使其变成一个 全连接层输出预测的类别。
概率值。Softmax函数 [15] 定义为 上述网络结构为本文建立的基本网络结构,同
e y i 时在基本网络结构中添加 Inception模块,设计改进
Y i = , (6)
∑ N
e y n 的 CNN 结构,如表 1 所示,用于提升三分类模型性
n=1
能。Inception 模块前 3 个通道为卷积操作,第 4 个
式 (6) 中:y i 代表全连接层的原始输出,i = 1, · · · ,
通道为池化操作,卷积核大小分别为 1 × 1、3 × 3
N,N 代表分类的类别。
和5 × 5,每个通道的核个数均为 32,通过 SAME 方
选择交叉熵函数 [16] 作为损失函数,其定义为
式的 Padding 操作可以得到相同纬度的特征,然后
N
∑
L = − y i lg ˆy i + (1 − y i ) lg (1 − ˆy i ) , (7) 将这些特征直接拼接得到维度为 128维的输出特征
i=1 图,如图1所示。
式(7)中:N 为某批次样本数,y i 为真实的类别标签,
表 1 改进的 CNN 结构
ˆ y i 为预测的类别概率值。
Table 1 Improved convolutional neural
2 卷积神经网络结构设计 network structure
在设计 CNN 网络结构时,对如何确定网络层 层名称 核尺寸 滑动步长 Padding 特征图尺寸
数、卷积层和池化层中的核尺寸和数目、全连接层 Input 513×513×3
的神经元数目没有严格的规定,一般是通过验证集 Conv-1 3×3×16 3×3 SAME 171×171×16
结果不断调整参数,确定最终网络结构,而如果在训 Pool-1 3×3 3×3 SAME 57×57×16
练初始就设定较为合理的数值,就可以节省大量的 Conv-2 3×3×32 1×1 SAME 57×57×32
调参时间,提高效率。大部分经典CNN模型希望通 Pool-2 3×3 3×3 SAME 19×19×32
过把卷积层堆叠得越来越多,提高模型性能,但是层 Conv-3 3×3×64 1×1 SAME 19×19×64
数太深会造成参数太多,计算复杂度加大。 Pool-3 3×3 3×3 SAME 7×7×64
本文利用 Inception 模块平衡网络的宽度和深 Inception
7×7×128
度,防止过拟合的同时提高网络对尺度的适应性。 模块
由于不同支路的感受野是不同的,所以输出特征图 Fc-1 128
有多尺度的信息在里面。选择小尺寸卷积核可以减 Fc-2 2
少卷积参数总数,增加模型容量和模型复杂度。卷
ᣥКྲढ़ڏ
积核尺寸通常为奇数,方便以卷积核中心为标准进
行滑动卷积,避免位置信息发生偏移,同时保证在进
1f1f32 1f1f32 1f1f32 3f3f32
行padding时,图像的两边依然相互对称。
对模型超参数调整,通过多次预训练确定CNN 5f5f32 3f3f32 1f1f32
网络结构。3 个卷积层中卷积核尺寸均为 3 × 3,
Conv-1 层卷积核滑动步长和卷积核尺寸保持一致, 3f3f32
有效减小输出特征图尺寸。卷积核个数分别为 16、
ᣥѣྲढ़ڏ
32、64,均为 2 的次幂,方便硬件字节级存储管理,
有利于显卡硬件计算过程中划分参数矩阵。为了更 图 1 Inception 模块
多地保留特征图纹理信息,采用最大池化进行池化 Fig. 1 Inception module