Page 93 - 《应用声学》2025年第2期
P. 93
第 44 卷 第 2 期 申小虎等: 网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法 353
优化问题,目标是在满足期望的稀疏度约束下,最小 决知识转移效率所带来的问题,Zhang等 [23] 进一步
化非零参数的数量,具体表达如下: 发展了知识蒸馏框架,提出一种单阶段多训练自蒸
馏方法,该模型允许在资源有限的边缘设备上进行
min (D; W) + λ ∥W∥ , s.t. ∥W∥ 6 k, (4)
0
0
L 自适应的精度 -效率权衡。具体方法是通过新增深
式(4)中,D表示剪枝网络的输入输出集,W为网络
层教师子网络对原网络的浅层部分进行知识迁移,
参数集合,|| · || 为 L0 范数,用于表示非零参数的个
展现了良好的抗噪能力。知识蒸馏不仅应用于通用
数,λ 为缩放系数,k 为剪枝目标稀疏度。根据剪枝
深度学习任务,在特定领域如嵌入式声学建模中也
的方式,它可以被分为结构化和非结构化两种 [20] 。
得到了广泛应用 [24] 。
结构化剪枝有时给模型的精度带来损失,而且在微
调时面临挑战。非结构化剪枝虽然可以获得稀疏的
2 方法与讨论
结果,但其计算成本可能较高。
1.3 知识蒸馏 与传统图像识别分类所不同,鸟声时频图具
有信息随机性强、频域分布不均衡、分辨率低等特
知识蒸馏是一种将深度模型 (教师) 的知识迁
点,如图 1 所示。用 EfficientNet 的优本文针对上述
移到轻量级模型 (学生) 中的方法,从而使学生模型
EfficientNet结构特点,设计了一种可平衡全局信息
达到或接近教师模型的性能。它的核心思想是使用
的网络稀疏剪枝与蒸馏微调策略。
软标签来表示概率分布,以传递更多的信息 [21] 。
2015年,Hinton等 [22] 在针对深度学习模型,通 图 2 展示了所提出的轻量级鸟声识别框架结
构。这一结构基于 EfficientNet网络架构,使用结构
过迁移学习方法进行知识蒸馏的尝试,将经过训练
的大型深度学习模型 (教师) 的知识转移到轻量级 通道剪枝和自我蒸馏技术。(1) 网络主要由基础网
模型 (学生) 中,并保持原模型的识别精度。知识蒸 络、剪枝网络和浅层分类器三部分组成。剪枝网络
馏方法通过概率分布来定义软标签,并控制 “温度” 是从基础网络通过结构化剪枝得来的,而每个浅层
来放大负标签信息,如公式(5)∼(6)所示: 分类器都是由一个瓶颈层和一个全连接层组成的。
(2) 该框架通过多个 MBConv 叠加,因此选择分阶
exp(z i /T)
p i (z i , T) = , (5)
∑ k 段训练模式,接收每个MBConv模块的内部蒸馏损
exp(z i /T)
j=0 失。(3) 在 MBConv 中,SE 模块被放置在深度可分
k
∑ t s 卷积和 1×1 卷积之间,因此引入稀疏校准系数 τ 作
S los = − p lg (p ), (6)
i i
i 为超参数,在空间维度上建模剪枝与资源的依赖关
其中,p i 为预测概率 (软目标),T 为蒸馏温度,代表 系,并通过计算训练损失进行动态调整。(4) 在推理
t
了概率分布的平缓程度,Z 为网络的逻辑输出,p 、 阶段,基础网络和所有浅层分类器都会被丢弃,蒸馏
p 分别对应教师网络和学生网络的概率输出。为解 过程中不存在额外的参数和计算惩罚。
s
12
10
8
ᮠဋ/Hz 6
4
2
0
0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0
ᫎ/s
图 1 鸟声时频图
Fig. 1 An example of bird sound spectrogram