Page 95 - 《应用声学》2025年第2期

P. 95

第 44 卷第 2 期申小虎等：网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法 355

(2) 模型复杂度变化计算的子问题：针对卷积数τ 进一步对激励向量进行掩码来实现当前阶段的
结构 R W ×H×C ，第 l 层的任意网络节点剪枝所产生剪枝，增强了剪枝过程对资源信息的表达能力，具体
的模型复杂度变化为公式为
l
l
l
l 2
2(H ×W ×(K ) ×C ×C l out +C l out ) i i+1 ( i i−1 )
in
c
F(w )= , (11) F i+1 (x|W )=M τ i ◦ M (F i (x|W )) , (12)
l l 2
(s )
其中，H × W 为输出的特征图大小，K 为卷积核大式 (12) 中，F i 、F N 分别为 EﬃcientNet 中间各阶段
i
小，C in 、C out 分别为卷积输入和输出通道，s为步长。与最终阶段的特征图，M 代表着第 i 个阶段中的
通过公式 (7)∼(8) 的约束条件，使用稀疏校准 MBConv网络操作。为避免大模型通道修剪时陷入
系数 τ 对 SE 模块实施全局信息嵌入和自适应重新局部最优，采用渐进式剪枝优化方法 [26] 实施网络
校正，如图 3 所示。其中，在 SE 模块内通过校准系推理。

BN
ሪႠጇ஝ఞழ Ԅሥ Swish ງएԻѬ SE Ԅሥ ᬤ఻ BN ҝ౨ᝫጷ
1f1 Ԅሥ3f3 1f1 ܿำ
τ t֓ → τ t⇁
࡙न
༏ҵ
τ
ଏᆊ
ԍ᎖
H֒W֒C ᤰ᥋ి᧘ᄊ˲୲ͻ

图 3 SE 模块的重新校准
Fig. 3 Recalibration for SE module
2.2 知识蒸馏微调损失分别定义为 L c 、L K 、L I ，其具体设计方式分别

结构化通道剪枝可能导致模型精度下降，因此如下。
使用知识蒸馏策略进行微调。传统知识蒸馏方法 (1) 蒸馏交叉熵损失 L c ：利用训练数据集标签
使用概率预测分布损失 (Kullback-Leibler, KL) 散与剪枝网络每个浅层分类器层的输出来计算交叉
度损失来优化度量指标，然而这种方法主要依赖于熵损失。蒸馏损失具体计算方式如公式(9)∼(10)所
最后一层的输出，忽略了中间层各模块的监督，特示，即：
∑ N
别是针对层次较深的EﬃcientNet，易降低知识转移 L c = − y lg (p i ), (13)
i
效果。
式(13) 中，y 表示训练数据的真实标签，p i 对应剪枝
为此，本文提出了一种新的自蒸馏策略。该策
网络的概率各浅层分类器的输出。
略不仅仅依赖于最后一层的输出，还考虑了中间层
(2) 概率预测分布损失 L K ：计算基础网络和剪
的监督，如图 3 所示。具体来说，首先根据文献 [27]
枝网络之间的概率分布，并将其引入每个浅层分类
的方法在每个 MBConv 模块的末端添加 1×1 卷积
器的softmax层。
层使剪枝网络与基础网络对齐。其次，在每个 MB- ∑ N
Conv 模块后设置一个浅层分类器接收训练损失。 L K = i p i lg (p i /p N ), (14)
最后，在训练期间，基础模型作为教师模型，所有其中，p N 为 EﬃcientNet-B0 基础网络的最终 soft-
MBConv模块都作为学生模型进行自蒸馏学习。为 max的概率输出。
了提升学习效率，在训练过程中引入了3 种损失：蒸 (3) 内部蒸馏损失 L I ：内部蒸馏损失可以得到
馏交叉熵损失、KL 损失与内部蒸馏损失。上述 3 种特征映射中的隐性知识，通过计算各最终输出分

90 91 92 93 94 95 96 97 98 99 100