Page 96 - 《应用声学》2025年第2期
P. 96
356 2025 年 3 月
类器与各浅层分类器在特征映射上的 L 2 损失得到。 数据集来源、评价指标和网络训练的具体细节。接
其工作原理是减少浅层分类器和最终分类器间的 着,从参数量、计算复杂度和识别平均精度等方面
特征映射之间的距离。然而,由于不同深度的特征 进行详尽对比。最后,与主流的鸟声识别网络进行
映射有不同的大小,因此需要进行对齐操作。具体 性能上的比对。
计算公式如下所示: 3.1 鸟声数据集
∑ N 2
L I = ∥F i − F N ∥ . (15) 为更贴切被动鸟声检测的环境实际,本文选择
2
i
华东地区常见鸟类进行录音样本的收集。在南京浦
基于上述损失分量,得到的最终损失函数为
口区老山国家森林公园附近地区,收集了包括灰喜
L = αL c + (1 − α) L K + ρL I , (16) 鹊、黑尾塍鹬、乌鸫、珠颈斑鸠、白头鹎、树麻雀等
10 种鸟类的 839 段鸣叫声,总时长约为 36 h。为了
其中,α 为平衡系数,用于权衡 L c 、L K 间的损失比
确保数据统一及样本的均衡性,将每段声频切割为
例,ρ 为内部蒸馏平衡因子。本文剪枝方法的核心
5 s,总计得到了25920份鸟声样本。表2详细列出了
思想是直接在特征图中形成一个通道或一组通道
各种鸟类的名称、科目、声频时长以及样本数量等
并进行分组,通过上述逆背包问题的损失来生成
信息。数据集按照 6 : 2 : 2 的比例被划分为训练集、
各个阶段模块的校准掩码。此外,本文选择通道
验证集和测试集。
剪枝寻优时不采用实时剪枝,而是首先通过校准
系数 τ 进行掩码处理,最后等 MBconv 模块全部完 表 2 测试鸟声样本集
Table 2 The bird sound sample set for testing
成剪枝输出模型时删除掩码值为 0 的通道。轻量级
EfficientNet网络的训练流程如图4所示。 鸟声种类 科目 样本时长/s 生成样本数
灰喜鹊 鸦科 23966 4793
Ლܦᮠڏ 黑尾塍鹬 丘鹬科 6745 1349
乌鸫 鹟科 10881 2070
Step1
ڍࠀԠ ҒՔ͜୧ᝠካඈ˔
MBConvവڱᄊྲढ़ڏ 珠颈斑鸠 鸠鸽科 10351 2736
雉鸡 雉科 12184 2437
Step2
ಪᎆܬᠫູᆸࠀ 山斑鸠 鸠鸽科 12837 2567
വیܭాएϙ R
树麻雀 麻雀科 20509 4102
白头鹎 鹎科 8072 1614
Step3 ᝠካՊവڱඈࡏ༏ำᤰ᥋ࠫᝫጷ
૯ܿԫӑ ࣳϢॆʷӑܫေ 黑水鸡 秧鸡科 11653 2331
小鸊鷉 鸊鷉科 12402 2481
Step4
ᝠካၷੇጇಣюጇ τ 3.2 评价指标
Step5 鸟声识别算法存在多种评价指标,如何选择取
Ѽࠀ௧աЛᦊ᥆ԋ N
决于具体的任务和目标。在分类模型任务中常用的
几类评价指标包括:
Y
Step6 (1) 准确率 (Accuracy):描述预测正确样本占
ಪಣюጇ τ ࠫඈࡏз
ᤰ᥋ᤉᛡଏᆊҝ౨ 总样本的比例。但当样本不均衡时,其可能并不能
真实反映模型性能。
δߛԠ ॎੇҝ౨Ꭺፏ
(2) 精确率 (Precision):精确率是所有被模型
图 4 本文轻量级网络的生成流程
预测为正例的样本中,真正为正例的样本的比例。
Fig. 4 The flowchart for proposed lightweight network
(3) 召回率(Recall):描述所有真正为正例的样
3 实验分析 本中,被模型正确预测的比例。在鸟声识别应用下,
表示所有某种鸟类的声音中,被正确识别的样本的
本节以基于 EfficientNet-B0 网络的鸟声识别 比例。
为具体应用,对照验证本文所提出的结构剪枝与知 鸟类稀有程度的不均衡、栖息环境存在不同,
识蒸馏方法的压缩效果。首先详细描述实验所需的 导致了不同物种间的训练测试样本存在不均衡,从