Page 97 - 《应用声学》2025年第2期
P. 97
第 44 卷 第 2 期 申小虎等: 网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法 357
而导致单一的评价标准不能够准确反映识别模型 到了不同条件下的收敛曲线。从图6中可以观察到,
的性能。因此,鸟声识别研究中通常选择使用识别 当 ρ = 0,即未引入内部蒸馏损失分量的情况下,交
平均精度(c-mAP)、检索平均精度(r-mAP)、准微观 叉验证集上知识蒸馏训练所获得的 c-mAP 值最小。
平均 F1(Micro-F1)、宏观平均 F1(Macro-F1) 作为 在不同 ρ 设置条件下,c-mAP 值均获得一定程度的
评估度量标准 [28] 。尤其在著名的 BirdCLEF 竞赛 提升,这验证了内部蒸馏平衡因子ρ 的可行性。但ρ
中,c-mAP 一直被用作主要的评估标准,因此本文 在达到一定权重 (ρ = 0.2) 后继续增加的情况下,实
也选择了c-mAP来评估剪枝网络的性能,其计算过 验结果没有得到进一步的改进。这可能是因为在这
程如下: 种情况下,特征映射中的隐性知识在混合剪枝损失
M 中发挥了较小的作用。因此,本文在后续实验中固
1 ∑
c-mAP = AvgP(c), (17) 定ρ为0.2。
M
c=1
呏༠ؑਧ
其中,M 为测试样本场景中存在的鸟类 (物种)的数
量,Avg P(c)为给定某一鸟类c的精确率。
此外,本文使用参数量和计算复杂度 FLOPs
作为评估剪枝后网络的性能指标。需要注意的是,
亴࣐䟽࠶ᑗ࣐デ
MBConv 结构上是具有深度可分离卷积的倒置线
性瓶颈层,因此其FLOPs计算公式 [29] 如下: ᮠᦞ໎ᕪ
2
FLOPs ≈ C in × K × H out × W out
ᘛ䙏ڵ䟼ਦ
+ C in × C out × H out × W out , (18)
ẵቄ└⌒
其中,C in 、C out 分别为输入特征图与输出特征图的
通道数;K 为卷积核尺寸;H out 、W out 分别为输出特 ਆሩᮠ
征图的尺寸大小。
8192 0 -10
4096
3.3 鸟声特征提取与训练 2048 -20
-30
1024
-50
直接对原始鸟声信号进行特征提取,容易丢 ᮠဋ/Hz 512 -40
256
128 -60
-70
失重要的高频特征信息。因此,需要通过预加重 64 0 -80
0 1.5 3.0 4.5 6.0 7.5 9.0 10.0
操作对高频能量进行放大。接着,通过分帧加窗获 ᫎ
ሩᮠᰦ仁മ(䗃ޕ⢩ᖱ)
得短时平稳信号,并执行快速傅里叶变换获得频
谱图。最后,依次使用梅尔滤波器和对数操作得到 图 5 鸟声特征提取流程
鸟声信息的非线性表达,对数时频图最终则被调 Fig. 5 The flowchart of feature extraction for bird sound
整至 224×224 大小,作为 EfficientNet-B0 网络的输 10
α=0.5, ρ=0
入。鸟声特征提取的整体流程如图 5 所示。特别说 α=0.5, ρ=0.2
9
α=0.5, ρ=0.4
明,为增强模型的准确性和泛化能力,本文采纳了文 α=0.5, ρ=0.6
α=0.5, ρ=1.0
献 [30] 提出的数据增强方法,主要包括随机噪声添 (1-c-mAP)/% 8
加、时域切割与频域拉伸以及部分样本时段的切除。 7
关于训练的超参数设置, 训练 epoch 为 60,
6
batch_size 为 16,初始学习率设为 0.001,并配备
了学习率衰减和 L2 正则化,L2 正则率为 10 −5 。此 5
0 10 20 30 40 50 60
外,蒸馏温度参数设为2。 ᝫጷepoch/
在损失函数公式 (15) 的超参数设定上,平衡系
图 6 不同内部蒸馏损失分量下的训练收敛曲线
数 α 为 0.5,本文讨论了内部蒸馏平衡因子 ρ 的设 Fig. 6 The convergence curves with different in-
置,如图 6 所示。实验中尝试了不同 ρ 值设置,并得 ternal distillation loss components