Page 92 - 《应用声学》2025年第2期
P. 92
352 2025 年 3 月
体方法包括: 式 (2) 中,w、d、r 分别是模型缩放的宽度、深度和分
ˆ
ˆ
ˆ ˆ
ˆ
(1) 针 对 EfficientNet 中 压 缩 与 激 发 操 作 辨率对应系数,F i 、L i 、H i 、W i 、C i 为基准网络的预
(Squeeze-and-excitation, SE) 模块的特点,本文提 设参数。EfficientNet-B0 是其系列中的基准模型,
出在 EfficientNet 上进一步实施阶段稀疏校准。其 共有9个阶段(Stage),如表1所示。
中,设计使用逆背包问题求解来生成稀疏校准系数。 表 1 EfficientNet-B0 结构组成
该系数能够动态反映剪枝比例,并对 SE 模块进行 Table 1 The network structure of Effi-
多维度挤压,从而降低计算成本。与传统方法相比, cientNet-B0
这种方法保留了原模型结构的同时,也不会产生稀
ˆ
阶段 操作 F i 分辨率 通道数 重复
疏连接模式。
1 Conv 3×3 224×224 32 1
(2) 针对 EfficientNet 结构中移动翻转瓶颈卷
2 MBConv1, Kernel 3×3 112×112 16 1
积 (Mobile inverted bottleneck convolution, MB-
3 MBConv6, Kernel 3×3 112×112 24 2
Conv) 模块叠加的特点,本文就如何设计和实施
4 MBConv6, Kernel 5×5 56×56 40 2
有效的蒸馏策略提供了建议。通过引入内部蒸馏损
5 MBConv6, Kernel 3×3 28×28 80 3
失分量,度量了 EfficientNet 模块与模块之间、模块
6 MBConv6, Kernel 5×5 14×14 112 3
与原模型之间的预测结果差异,获得了更加全面的
7 MBConv6, Kernel 5×5 14×14 192 4
损失信息,同时迭代更新稀疏校准系数。
8 MBConv6, Kernel 3×3 7×7 320 1
(3) 经过实验验证,本文建立的轻量级模型在
9 Conv 1×1 & Pooling & FC 7×7 1280 1
保持近似于原始深度模型的识别精度的同时,降低
了计算资源需求,可满足资源受限设备的需求。 各个阶段对训练速度和参数效率的贡献并不
相同。第 1 个 stage 为 3×3 卷积层,第 2∼8 个 Stage
1 基本原理
实现了 MBConv 的重复堆叠,第 9 个 Stage 分别由
1×1 卷积、池化和全连接层组成。EfficientNet 通过
1.1 EfficientNet模型
复合缩放系数 ϕ 来统一缩放网络的宽度、深度和分
EfficientNet 由学者 Tan 提出 [16] ,旨在资源限
辨率。约束条件为
定条件下对网络深度 (层数)、宽度 (通道数) 和分辨
ϕ
ϕ
ϕ
率进行高效的模型扩展。该模型采用 MBConv [17] d = α , w = β , r = γ ,
2
2
作为主干,且结合 SE 模块 [18] 进行结构优化。Effi- s.t. α · β · γ ≈ 2, (3)
cientNet的关键是在给定的内存和计算复杂度约束 式 (3) 中,α > 1、β > 1、γ > 1 分别指定如何将
下最大化模型的准确性,其网络定义为 资源分配给宽度、深度和输入分辨率。在上述约
⊙
( ) 束条件下,EfficientNet-B0 在 α = 1.2、β = 1.1、
N = F L i X ⟨H i ,W i ,C i ⟩ , (1)
i
i=1,··· ,s γ = 1.15 时性能效果最佳,在系数 ϕ = 1 条件下
式 (1) 中,X 为模型输入张量,(H i , W i ) 为输入图片 得到的 EfficientNet-B1 与 ResNet-152、DenseNet-
尺寸,L i 、C i 分别为模型的深度与宽度,F L i 表示 264、Inception-v3、Xception 网络相比较,在相同分
i
模型的第 i个阶段 (stage),由卷积层F i 重复L i 次构 类精度的情况下网络参数降低了一个数量级。
成。该网络优化目标是在指定内存资源 (Y MEMOR ) 总之,EfficientNet 提供了一个综合的缩放策
和计算复杂度(S FLOP )条件下最大化模型准确性: 略,有效平衡了计算资源、速度和分类精度的关系。
但在固定的计算资源下,如何进一步优化网络结构
max Y ACCURAC (N(d, w, r))
d,w,r 应对不同领域应用仍是待解决的问题。
⊙ ( )
s.t. N (d, w, r) = F ˆ d· ˆ L i X , 网络剪枝
i ⟨r· ˆ H i ,r· ˆ W i ,w· ˆ C i ⟩ 1.2
i=1,··· ,s
网络剪枝是减轻 CNN 负担的常用策略,它可
Y MEMOR (N) 6 target_memory,
以有效地缓解模型的过拟合并在实际应用中得到
S FLOP (N) 6 target_flops, (2) [19]
了广泛应用 。从技术角度看,剪枝就是一个网络