Page 59 - 《应用声学》2025年第3期
P. 59
第 44 卷 第 3 期 杨雪同等: 基于注意力的双层级并行声学场景分类方法 593
88.27%。由于高层级场景的类别数较少,每个类别 相比于 Base,DHPN 的分类准确率略有下降。
的数据相对充足,因此经过训练后,网络能够获得较 由于教师模型与学生模型的分类目标不同,简单地
高的分类性能。与教师模型相比,学生模型的低层 按通道维度拼接二者特征可能误导学生模型对场
级场景类别更多,这意味着它需要学习更为细致的 景的推断。而DADHPN的分类准确率提高了1.6%。
场景特征知识。然而,由于每个类别的数据量相对 这表明,通过利用注意力机制传递教师模型的高层
较少,使得学生模型的分类性能不如教师模型。然 级场景特征知识,并动态调整学生模型特征通道权
而通过堆叠残差层构建的深度网络展现出了强大 重,能够提升学生模型性能。使用 EIL后,分类准确
的特征学习能力,仍能取得较高的分类性能。 率相比 Base增加了 2.7%,相比于 DADHPN则增加
了0.6%。EIL通过融合学生模型预测和基于教师模
表 1 高层级场景逐类别分类性能指标
型高层级场景预测加权后的结果,最终有效地提升
Table 1 Class-wise performance of high-
level scene classification 了学生模型的分类能力。
表 3 分类准确率
类别 精确率/% 召回率/% F1 值
Table 3 Classification accuracy
indoor 95.89 86.84 0.9114
transportation 92.58 98.79 0.9558 模型 准确率/%
outdoor 94.65 97.53 0.9607 Base 87.9
average 94.37 94.39 0.9426 DHPN 85.8
DADHPN 89.5
表 2 低层级场景逐类别分类性能指标
DADHPN + EIL 90.1
Table 2 Class-wise classification perfor-
mance of low-level scenes 表 4 列出了逐类别的分类性能指标。 采用
DADHPN 模 型 后, 多 数 低 层 级 场 景 类 别 的 精
类别 精确率/% 召回率/% F1 值
确 率 均 有 所 提 高, 如 airport、 metro_station、
airport 84.11 79.03 0.8149
street_pedestrian、park、public_square、metro 和
shopping_mall 86.56 92.75 0.8955
tram 等,其中以 street_pedestrian 的增益最显著,
metro_station 84.59 89.97 0.8720
增加了14.11%。但教师模型提供的高层级特征相对
street_pedestrian 81.65 98.28 0.8919
宽泛,不能为每个低层级场景提供详细知识,这导致
street_traffic 95.94 75.94 0.8478
在某些类别中表现较差,例如 shopping_mall、park
park 92.87 91.72 0.9229
等。使用EIL后,各类别精确率与Base相比,其变化
public_square 85.97 82.90 0.8441
趋势与DADHPN基本一致。
bus 94.97 88.11 0.9141
metro 87.05 99.47 0.9285
表 4 逐类别分类指标
tram 89.01 80.53 0.8456 Table 4 Class-wise classification indicators
average 88.27 87.87 0.8777
精确率/%
场景类别
2.4 消融实验 Base DHPN DADHPN DADHPN+EIL
airport 84.11 76.93 89.14 90.63
表 3 列出了基线模型 Base、DHPN、本文方法
shopping_mall 86.56 86.49 67.71 71.08
DADHPN 以及添加 EIL 后的低层级场景分类准确
metro_station 84.59 83.69 95.03 92.73
率指标。其中,Base 是直接采用图 1 基础模型进行
street_pedestrian 81.65 91.91 95.76 95.69
低层级场景分类的网络;DHPN 则将 DADHPN 的 street_traffic 95.94 85.29 95.69 92.70
注意力层替换为通道拼接操作,即按通道维度将教 park 92.87 82.40 91.92 90.24
师模型与学生模型的特征进行拼接。除了 Base 外, public_square 85.97 81.72 90.84 91.09
其他三者均采用 “教师 -学生” 架构,且教师模型结 bus 94.97 93.14 90.59 90.36
构一致,因此为保证公平性,三者使用了相同的教师 metro 87.05 95.60 92.56 93.18
tram 89.01 81.32 96.97 93.39
模型。