Page 92 - 《应用声学》2025年第2期
P. 92

352                                                                                  2025 年 3 月


             体方法包括:                                            式 (2) 中,w、d、r 分别是模型缩放的宽度、深度和分
                                                                                        ˆ
                                                                                            ˆ
                                                                              ˆ ˆ
                                                                                    ˆ
                 (1) 针 对 EfficientNet 中 压 缩 与 激 发 操 作            辨率对应系数,F i 、L i 、H i 、W i 、C i 为基准网络的预
             (Squeeze-and-excitation, SE) 模块的特点,本文提            设参数。EfficientNet-B0 是其系列中的基准模型,
             出在 EfficientNet 上进一步实施阶段稀疏校准。其                      共有9个阶段(Stage),如表1所示。
             中,设计使用逆背包问题求解来生成稀疏校准系数。                                    表 1  EfficientNet-B0 结构组成
             该系数能够动态反映剪枝比例,并对 SE 模块进行                             Table 1   The network structure of Effi-
             多维度挤压,从而降低计算成本。与传统方法相比,                              cientNet-B0
             这种方法保留了原模型结构的同时,也不会产生稀
                                                                                ˆ
                                                                阶段          操作 F i          分辨率    通道数   重复
             疏连接模式。
                                                                 1         Conv 3×3        224×224  32    1
                 (2) 针对 EfficientNet 结构中移动翻转瓶颈卷
                                                                 2     MBConv1, Kernel 3×3  112×112  16   1
             积 (Mobile inverted bottleneck convolution, MB-
                                                                 3     MBConv6, Kernel 3×3  112×112  24   2
             Conv) 模块叠加的特点,本文就如何设计和实施
                                                                 4     MBConv6, Kernel 5×5  56×56   40    2
             有效的蒸馏策略提供了建议。通过引入内部蒸馏损
                                                                 5     MBConv6, Kernel 3×3  28×28   80    3
             失分量,度量了 EfficientNet 模块与模块之间、模块
                                                                 6     MBConv6, Kernel 5×5  14×14   112   3
             与原模型之间的预测结果差异,获得了更加全面的
                                                                 7     MBConv6, Kernel 5×5  14×14   192   4
             损失信息,同时迭代更新稀疏校准系数。
                                                                 8     MBConv6, Kernel 3×3  7×7     320   1
                 (3) 经过实验验证,本文建立的轻量级模型在
                                                                 9   Conv 1×1 & Pooling & FC  7×7  1280   1
             保持近似于原始深度模型的识别精度的同时,降低
             了计算资源需求,可满足资源受限设备的需求。                                 各个阶段对训练速度和参数效率的贡献并不
                                                               相同。第 1 个 stage 为 3×3 卷积层,第 2∼8 个 Stage
             1 基本原理
                                                               实现了 MBConv 的重复堆叠,第 9 个 Stage 分别由
                                                               1×1 卷积、池化和全连接层组成。EfficientNet 通过
             1.1 EfficientNet模型
                                                               复合缩放系数 ϕ 来统一缩放网络的宽度、深度和分
                 EfficientNet 由学者 Tan 提出     [16] ,旨在资源限
                                                               辨率。约束条件为
             定条件下对网络深度 (层数)、宽度 (通道数) 和分辨
                                                                                                ϕ
                                                                                ϕ
                                                                                        ϕ
             率进行高效的模型扩展。该模型采用 MBConv                    [17]              d = α , w = β , r = γ ,
                                                                                      2
                                                                                  2
             作为主干,且结合 SE 模块          [18]  进行结构优化。Effi-                     s.t. α · β · γ ≈ 2,             (3)
             cientNet的关键是在给定的内存和计算复杂度约束                        式 (3) 中,α > 1、β > 1、γ > 1 分别指定如何将
             下最大化模型的准确性,其网络定义为                                 资源分配给宽度、深度和输入分辨率。在上述约
                            ⊙
                                    (           )              束条件下,EfficientNet-B0 在 α = 1.2、β = 1.1、
                     N =         F  L i  X ⟨H i ,W i ,C i ⟩ ,  (1)
                                  i
                          i=1,··· ,s                           γ = 1.15 时性能效果最佳,在系数 ϕ = 1 条件下
             式 (1) 中,X 为模型输入张量,(H i , W i ) 为输入图片              得到的 EfficientNet-B1 与 ResNet-152、DenseNet-
             尺寸,L i 、C i 分别为模型的深度与宽度,F              L i  表示    264、Inception-v3、Xception 网络相比较,在相同分
                                                    i
             模型的第 i个阶段 (stage),由卷积层F i 重复L i 次构                类精度的情况下网络参数降低了一个数量级。
             成。该网络优化目标是在指定内存资源 (Y MEMOR )                          总之,EfficientNet 提供了一个综合的缩放策
             和计算复杂度(S FLOP )条件下最大化模型准确性:                       略,有效平衡了计算资源、速度和分类精度的关系。
                                                               但在固定的计算资源下,如何进一步优化网络结构
             max Y ACCURAC (N(d, w, r))
             d,w,r                                             应对不同领域应用仍是待解决的问题。
                              ⊙         (               )
             s.t. N (d, w, r) =    F ˆ  d· ˆ L i  X       ,         网络剪枝
                                    i      ⟨r· ˆ H i ,r· ˆ W i ,w· ˆ C i ⟩  1.2
                            i=1,··· ,s
                                                                   网络剪枝是减轻 CNN 负担的常用策略,它可
             Y MEMOR (N) 6 target_memory,
                                                               以有效地缓解模型的过拟合并在实际应用中得到
             S FLOP (N) 6 target_flops,                  (2)               [19]
                                                               了广泛应用         。从技术角度看,剪枝就是一个网络
   87   88   89   90   91   92   93   94   95   96   97