Page 97 - 《应用声学》2025年第2期
P. 97

第 44 卷 第 2 期          申小虎等: 网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法                                          357


             而导致单一的评价标准不能够准确反映识别模型                             到了不同条件下的收敛曲线。从图6中可以观察到,
             的性能。因此,鸟声识别研究中通常选择使用识别                            当 ρ = 0,即未引入内部蒸馏损失分量的情况下,交
             平均精度(c-mAP)、检索平均精度(r-mAP)、准微观                     叉验证集上知识蒸馏训练所获得的 c-mAP 值最小。
             平均 F1(Micro-F1)、宏观平均 F1(Macro-F1) 作为              在不同 ρ 设置条件下,c-mAP 值均获得一定程度的
             评估度量标准       [28] 。尤其在著名的 BirdCLEF 竞赛             提升,这验证了内部蒸馏平衡因子ρ 的可行性。但ρ
             中,c-mAP 一直被用作主要的评估标准,因此本文                         在达到一定权重 (ρ = 0.2) 后继续增加的情况下,实
             也选择了c-mAP来评估剪枝网络的性能,其计算过                          验结果没有得到进一步的改进。这可能是因为在这
             程如下:                                              种情况下,特征映射中的隐性知识在混合剪枝损失
                                    M                          中发挥了较小的作用。因此,本文在后续实验中固
                                  1  ∑
                        c-mAP =        AvgP(c),        (17)    定ρ为0.2。
                                 M
                                    c=1
                                                                                    呏༠ؑਧ
             其中,M 为测试样本场景中存在的鸟类 (物种)的数
             量,Avg P(c)为给定某一鸟类c的精确率。
                 此外,本文使用参数量和计算复杂度 FLOPs
             作为评估剪枝后网络的性能指标。需要注意的是,
                                                                                  亴࣐䟽࠶ᑗ࣐デ
             MBConv 结构上是具有深度可分离卷积的倒置线
             性瓶颈层,因此其FLOPs计算公式              [29]  如下:                               ᮠᦞ໎ᕪ

                                 2
                FLOPs ≈ C in × K × H out × W out
                                                                                    ᘛ䙏ڵ䟼ਦ
                          + C in × C out × H out × W out ,  (18)
                                                                                    ẵቄ└⌒
             其中,C in 、C out 分别为输入特征图与输出特征图的
             通道数;K 为卷积核尺寸;H out 、W out 分别为输出特                                       ਆሩᮠ᫽֌
             征图的尺寸大小。
                                                                     8192                             0 -10
                                                                     4096
             3.3 鸟声特征提取与训练                                           2048                             -20
                                                                                                      -30
                                                                     1024
                                                                                                      -50
                 直接对原始鸟声信号进行特征提取,容易丢                                 ᮠဋ/Hz  512                       -40
                                                                      256
                                                                      128                             -60
                                                                                                      -70
             失重要的高频特征信息。因此,需要通过预加重                                     64 0                           -80
                                                                        0   1.5  3.0  4.5  6.0  7.5  9.0  10.0
             操作对高频能量进行放大。接着,通过分帧加窗获                                                    ௑ᫎ
                                                                                 ሩᮠᰦ仁മ(䗃ޕ⢩ᖱ)
             得短时平稳信号,并执行快速傅里叶变换获得频
             谱图。最后,依次使用梅尔滤波器和对数操作得到                                         图 5  鸟声特征提取流程
             鸟声信息的非线性表达,对数时频图最终则被调                              Fig. 5 The flowchart of feature extraction for bird sound
             整至 224×224 大小,作为 EfficientNet-B0 网络的输                    10
                                                                                            α=0.5, ρ=0
             入。鸟声特征提取的整体流程如图 5 所示。特别说                                                       α=0.5, ρ=0.2
                                                                     9
                                                                                            α=0.5, ρ=0.4
             明,为增强模型的准确性和泛化能力,本文采纳了文                                                        α=0.5, ρ=0.6
                                                                                            α=0.5, ρ=1.0
             献 [30] 提出的数据增强方法,主要包括随机噪声添                            (1-c-mAP)/%  8
             加、时域切割与频域拉伸以及部分样本时段的切除。                                 7
                 关于训练的超参数设置, 训练 epoch 为 60,
                                                                     6
             batch_size 为 16,初始学习率设为 0.001,并配备
             了学习率衰减和 L2 正则化,L2 正则率为 10              −5 。此            5
                                                                      0    10    20    30    40    50   60
             外,蒸馏温度参数设为2。                                                          ᝫጷepoch஝/൓
                 在损失函数公式 (15) 的超参数设定上,平衡系
                                                                   图 6  不同内部蒸馏损失分量下的训练收敛曲线
             数 α 为 0.5,本文讨论了内部蒸馏平衡因子 ρ 的设                         Fig. 6 The convergence curves with different in-
             置,如图 6 所示。实验中尝试了不同 ρ 值设置,并得                          ternal distillation loss components
   92   93   94   95   96   97   98   99   100   101   102