Page 91 - 《应用声学》2025年第2期
P. 91
第 44 卷 第 2 期 申小虎等: 网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法 351
distillation method, by adding internal distillation loss components between the MBConv modules and con-
ducting subsequent training, the preservation of the disparity between feature maps before and after pruning in
cross-group information exchange was ensured. Through experiments involving the classification of ten distinct
bird sound types recorded within the Laoshan Forest in Pukou District, Nanjing, a classification accuracy of
91.64% with a compressed network parameter of merely 3.0 M was obtained. This approach achieves network
scale compression while preserving classification accuracy. Compared to mainstream methods of equivalent
scale, the proposed technique more adeptly meets the requirements of PAM equipment tailored for bird sound
recognition.
Keywords: Network pruning; Knowledge distillation; Bird sound recognition; Light-weight network; Passive
acoustic monitoring
种基于残差模块的轻量级鸟声识别网络 LDFSRE-
0 引言
NET,该模型可有效学习更全面的声频特征,减少
鸟类在生态系统中起到关键作用,对生物多样 解决特征提取过程中的信息丢失问题。特别是在轻
性和环境变化监测至关重要。鸟鸣声是生态学研究 量级网络设计上,选择使用双层残差模块作为主干
中的宝贵信息资源。通过对鸟鸣声的分析,研究者 网络,从而减少了网络的训练时间和参数的数量。
可以准确地掌握鸟类的分布、种群数量和迁移模式, 在剪枝方法上,为降低结构剪枝推理过程中的计算
进而深入探讨生态系统的动态变化。 成本,文献 [12] 利用泰勒展开式计算每个神经元对
近期,利用深度学习技术对鸟鸣声进行识别已 损失的贡献,并迭代地删除得分较小的神经元。此
经成为研究的热点。Kahl 研究团队 [1] 尝试采用 19 方法泛用性较好,可适用跳过连接,但微调仍是一
种卷积神经网络 (Convolutional neural networks, 个挑战。为提升剪枝后网络微调的精度,Bai 等 [13]
CNN) 结构,从原始声频数据中提取特征用于鸟声 使用交叉知识蒸馏的方法,在少量训练样本条件下,
识别。然而,他们发现由于鸟声的时频图特性相对 有效减少了层级累积所造成的分类误差。在知识蒸
简单,增加网络结构的复杂度并不能够明显提高识 馏上,针对语声识别主流模型 Transformer,Aguilar
别精度。Adavanne等 [2] 采用循环卷积网络结构,借 等 [14] 以自下而上的方式使学生网络逐步地学习
助循环神经网络处理鸟鸣声的时序特性,达到了在 教师网络隐藏层中的抽象表示和内部行为,提升
鸟声检测任务上的性能提升。随后,Kahl 团队进一 了蒸馏模型的泛化能力。Xie等 [15] 基于CLDNN模
步提出了 BirdNet [3] 深度学习架构,该架构整合了 型,通过引入 CBAM (Convolutional block atten-
深度信号处理技术和残差网络,用于大规模的鸟鸣 tion module)模块,并使用Swish激活取代ReLU激
声识别,尤其在复杂环境下,其表现更为优异。近 活功能,获得 CS-CLDNN 教师网络与简化学生网
几年,更多的大型结构网络,如:注意力分割网络 络 Net-S,最后通过联合训练得到轻量级鸟声识别
(ResNeSt) 、NFNet(Normalizer-free ResNets) 、 模型KD-CLDNN。KD-CLDNN模型在实现过程中
[5]
[4]
ReNeXt 、ConvNeXt [7] 被引入鸟声识别领域,识 采用了知识蒸馏优化技巧,降低了模型的计算复杂
[6]
别精度得到进一步的提升。然而,这些深度网络模 度和参数量,同时保持较高的分类准确性。可以看
型往往需要大量的计算资源和存储空间。边缘设备 出,目前主流算法聚焦于使用各种评分函数进行全
在数据隐私、实时反馈、节能等方面具有优势,其在 局剪枝,接着通过不同的微调策略来恢复稀疏模型
生物多样性保护监测中的应用逐渐增加。因此,如 的准确性。
何在边缘设备上实现轻量级的、高效的鸟声识别成 近三年 BirdCLEF 鸟声识别竞赛中,Efficient-
为了一个重要课题。设计适配性高的网络模型、剪 Net 被广泛采用,但由于其非结构化计算单元叠加
枝操作与知识蒸馏是生成高效轻量级网络的关键 生成的网络结构,传统全局剪枝会导致精度恢复存
手段 [8−9] 。 在不稳定,限制了压缩网络的可伸缩性。针对上述
在模型设计上,Incze 等 [10] 通过迁移学习将 问题,本文考虑将网络剪枝过程建模为一个可微方
MobileNet 网络应用于鸟鸣声特征提取,旨在减少 程,使用阶段稀疏校准系数来隐式地对网络结构进
网络复杂性并缩短训练时间。Hu等 [11] 则提出了一 行修剪,实现稳健高效的EfficientNet结构搜索。具