Page 59 - 《应用声学》2025年第3期
P. 59

第 44 卷 第 3 期             杨雪同等: 基于注意力的双层级并行声学场景分类方法                                          593


             88.27%。由于高层级场景的类别数较少,每个类别                             相比于 Base,DHPN 的分类准确率略有下降。
             的数据相对充足,因此经过训练后,网络能够获得较                           由于教师模型与学生模型的分类目标不同,简单地
             高的分类性能。与教师模型相比,学生模型的低层                            按通道维度拼接二者特征可能误导学生模型对场
             级场景类别更多,这意味着它需要学习更为细致的                            景的推断。而DADHPN的分类准确率提高了1.6%。
             场景特征知识。然而,由于每个类别的数据量相对                            这表明,通过利用注意力机制传递教师模型的高层
             较少,使得学生模型的分类性能不如教师模型。然                            级场景特征知识,并动态调整学生模型特征通道权
             而通过堆叠残差层构建的深度网络展现出了强大                             重,能够提升学生模型性能。使用 EIL后,分类准确
             的特征学习能力,仍能取得较高的分类性能。                              率相比 Base增加了 2.7%,相比于 DADHPN则增加
                                                               了0.6%。EIL通过融合学生模型预测和基于教师模
                    表 1  高层级场景逐类别分类性能指标
                                                               型高层级场景预测加权后的结果,最终有效地提升
                Table 1 Class-wise performance of high-
                level scene classification                      了学生模型的分类能力。
                                                                               表 3  分类准确率
                    类别        精确率/%     召回率/%      F1 值
                                                                       Table 3 Classification accuracy
                   indoor       95.89     86.84    0.9114
                transportation  92.58     98.79    0.9558                   模型                准确率/%
                   outdoor      94.65     97.53    0.9607                   Base                87.9
                   average      94.37     94.39    0.9426                  DHPN                 85.8
                                                                          DADHPN                89.5
                    表 2  低层级场景逐类别分类性能指标
                                                                        DADHPN + EIL            90.1
                Table 2  Class-wise classification perfor-
                mance of low-level scenes                          表 4 列出了逐类别的分类性能指标。 采用
                                                               DADHPN 模 型 后, 多 数 低 层 级 场 景 类 别 的 精
                     类别         精确率/%    召回率/%     F1 值
                                                               确 率 均 有 所 提 高, 如 airport、 metro_station、
                    airport      84.11     79.03   0.8149
                                                               street_pedestrian、park、public_square、metro 和
                 shopping_mall   86.56     92.75   0.8955
                                                               tram 等,其中以 street_pedestrian 的增益最显著,
                 metro_station   84.59     89.97   0.8720
                                                               增加了14.11%。但教师模型提供的高层级特征相对
                street_pedestrian  81.65   98.28   0.8919
                                                               宽泛,不能为每个低层级场景提供详细知识,这导致
                  street_traffic   95.94     75.94   0.8478
                                                               在某些类别中表现较差,例如 shopping_mall、park
                     park        92.87     91.72   0.9229
                                                               等。使用EIL后,各类别精确率与Base相比,其变化
                  public_square  85.97     82.90   0.8441
                                                               趋势与DADHPN基本一致。
                      bus        94.97     88.11   0.9141
                     metro       87.05     99.47   0.9285
                                                                             表 4  逐类别分类指标
                     tram        89.01     80.53   0.8456         Table 4 Class-wise classification indicators
                    average      88.27     87.87   0.8777
                                                                                          精确率/%
                                                                   场景类别
             2.4 消融实验                                                         Base DHPN DADHPN DADHPN+EIL
                                                                   airport    84.11  76.93  89.14    90.63
                 表 3 列出了基线模型 Base、DHPN、本文方法
                                                                shopping_mall  86.56  86.49  67.71   71.08
             DADHPN 以及添加 EIL 后的低层级场景分类准确
                                                                 metro_station  84.59  83.69  95.03  92.73
             率指标。其中,Base 是直接采用图 1 基础模型进行
                                                               street_pedestrian 81.65  91.91  95.76  95.69
             低层级场景分类的网络;DHPN 则将 DADHPN 的                         street_traffic  95.94  85.29  95.69   92.70
             注意力层替换为通道拼接操作,即按通道维度将教                                 park      92.87  82.40  91.92    90.24
             师模型与学生模型的特征进行拼接。除了 Base 外,                          public_square  85.97  81.72  90.84  91.09
             其他三者均采用 “教师 -学生” 架构,且教师模型结                              bus      94.97  93.14  90.59    90.36
             构一致,因此为保证公平性,三者使用了相同的教师                                metro     87.05  95.60  92.56    93.18
                                                                    tram      89.01  81.32  96.97    93.39
             模型。
   54   55   56   57   58   59   60   61   62   63   64