Page 93 - 《应用声学》2025年第2期
P. 93

第 44 卷 第 2 期          申小虎等: 网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法                                          353


             优化问题,目标是在满足期望的稀疏度约束下,最小                           决知识转移效率所带来的问题,Zhang等                 [23]  进一步
             化非零参数的数量,具体表达如下:                                  发展了知识蒸馏框架,提出一种单阶段多训练自蒸
                                                               馏方法,该模型允许在资源有限的边缘设备上进行
                min (D; W) + λ ∥W∥ , s.t. ∥W∥ 6 k,      (4)
                                    0
                                              0
                  L                                            自适应的精度 -效率权衡。具体方法是通过新增深
             式(4)中,D表示剪枝网络的输入输出集,W为网络
                                                               层教师子网络对原网络的浅层部分进行知识迁移,
             参数集合,|| · || 为 L0 范数,用于表示非零参数的个
                                                               展现了良好的抗噪能力。知识蒸馏不仅应用于通用
             数,λ 为缩放系数,k 为剪枝目标稀疏度。根据剪枝
                                                               深度学习任务,在特定领域如嵌入式声学建模中也
             的方式,它可以被分为结构化和非结构化两种                      [20] 。
                                                               得到了广泛应用        [24] 。
             结构化剪枝有时给模型的精度带来损失,而且在微
             调时面临挑战。非结构化剪枝虽然可以获得稀疏的
                                                               2 方法与讨论
             结果,但其计算成本可能较高。
             1.3 知识蒸馏                                              与传统图像识别分类所不同,鸟声时频图具
                                                               有信息随机性强、频域分布不均衡、分辨率低等特
                 知识蒸馏是一种将深度模型 (教师) 的知识迁
                                                               点,如图 1 所示。用 EfficientNet 的优本文针对上述
             移到轻量级模型 (学生) 中的方法,从而使学生模型
                                                               EfficientNet结构特点,设计了一种可平衡全局信息
             达到或接近教师模型的性能。它的核心思想是使用
                                                               的网络稀疏剪枝与蒸馏微调策略。
             软标签来表示概率分布,以传递更多的信息                    [21] 。
                 2015年,Hinton等   [22]  在针对深度学习模型,通                 图 2 展示了所提出的轻量级鸟声识别框架结
                                                               构。这一结构基于 EfficientNet网络架构,使用结构
             过迁移学习方法进行知识蒸馏的尝试,将经过训练
             的大型深度学习模型 (教师) 的知识转移到轻量级                          通道剪枝和自我蒸馏技术。(1) 网络主要由基础网
             模型 (学生) 中,并保持原模型的识别精度。知识蒸                         络、剪枝网络和浅层分类器三部分组成。剪枝网络

             馏方法通过概率分布来定义软标签,并控制 “温度”                          是从基础网络通过结构化剪枝得来的,而每个浅层
             来放大负标签信息,如公式(5)∼(6)所示:                            分类器都是由一个瓶颈层和一个全连接层组成的。
                                                               (2) 该框架通过多个 MBConv 叠加,因此选择分阶
                                    exp(z i /T)
                      p i (z i , T) =           ,       (5)
                                 ∑ k                           段训练模式,接收每个MBConv模块的内部蒸馏损
                                       exp(z i /T)
                                    j=0                        失。(3) 在 MBConv 中,SE 模块被放置在深度可分
                                      k
                                     ∑    t    s               卷积和 1×1 卷积之间,因此引入稀疏校准系数 τ 作
                             S los = −   p lg (p ),     (6)
                                          i    i
                                       i                       为超参数,在空间维度上建模剪枝与资源的依赖关
             其中,p i 为预测概率 (软目标),T 为蒸馏温度,代表                     系,并通过计算训练损失进行动态调整。(4) 在推理
                                                         t
             了概率分布的平缓程度,Z 为网络的逻辑输出,p 、                         阶段,基础网络和所有浅层分类器都会被丢弃,蒸馏
             p 分别对应教师网络和学生网络的概率输出。为解                           过程中不存在额外的参数和计算惩罚。
              s

                            12
                            10
                             8
                            ᮠဋ/Hz  6

                             4
                             2
                             0
                              0    1.0    2.0    3.0    4.0    5.0    6.0     7.0    8.0    9.0
                                                               ௑ᫎ/s

                                                      图 1  鸟声时频图
                                          Fig. 1 An example of bird sound spectrogram
   88   89   90   91   92   93   94   95   96   97   98