Page 55 - 《应用声学》2025年第3期
P. 55

第 44 卷 第 3 期             杨雪同等: 基于注意力的双层级并行声学场景分类方法                                          589


                                                               式等角度出发开展 ASC研究,通过不同手段提升场
             0 引言
                                                               景分类效果,但网络分类性能仍存在提升空间。此
                 声学场景分类 (Acoustic scene classification,         外,现有研究较少关注声学场景数据本身的特点,对
             ASC) 旨在通过对声频信号的分析,将环境中的声                          数据内在关系的了解不足。场景类别间存在层级关
             音划分为不同的场景或环境类别,为计算机系统提                            系,其中低层级类别分类细致,例如公园、广场等,更
             供对环境背景的感知和理解能力,是计算机听觉任                            符合实际应用。以往方法通常直接针对低层级场景
             务之一   [1] 。在智能设备、声频监控系统以及智能家                      进行分类,本文则从层级关系出发,提出一种基于注
             居等领域,ASC有着广泛的应用             [2] 。                 意力的双层级并行分类方法,构造并行的高低层级
                 随着深度学习的发展,越来越多的ASC方法基                         类别的分类模型。结合知识蒸馏思想                   [14−15] ,本文
             于神经网络实现。这些方法通常先从声频数据中提                            通过将高层级分类模型的特征作为知识传递给低
             取声学特征,再利用神经网络模型进行分类。特征                            层级分类模型,并利用注意力机制基于特征间距离
             提取方法可分为两类:一是手工特征提取,这类特征                           为低层级模型的各通道特征赋予权重,使低层级分
             基于相关领域的知识、经验和规则而设计。典型特                            类模型更关注关键特征,从而提高其在低层级场景
             征包括梅尔倒谱系数          [3] 、梅尔谱图   [4] 、对数梅尔谱         分类中的性能。由于并行网络对同一声频可以输出
             图  [5] 、滤波器组(Filter bank, FBank) [6]  等。另一类       两种层级类别的预测,因此本文增加了增强推理层
             方法是构建可学习模型,自主学习从声频中提取特                            (Enhance inference layer, EIL),以融合高低层级场
             征。例如文献 [7] 基于卷积神经网络 (Convolutional                景的预测结果,进一步提升网络的低层级场景分类
             neural network, CNN) 构建了 SoundNet,该网络能            能力。
             够从声频中提取不同层次的特征,这些特征反映了
             声频的各种细节。                                          1 ASC方法原理
                 除选择特征外,网络模型的结构以及学习范式
                                                               1.1  ASC基础网络
             的选择对分类效果的影响也是至关重要的。CNN
             在图像处理领域表现出色,因此研究者从声频中提                                在ASC和声频分类等任务中,基于卷积网络的
             取时频二维特征,并应用 VGG、Inception、ResNet                  方法展现出了卓越的性能             [16−18] 。残差网络通过引
             等卷积网络进行分类           [8−9] 。文献 [10] 采用了卷积          入残差连接,有效解决了深度卷积网络的梯度消失
             循环神经网络 (Convolution recursive neural net-         问题,提高了模型的训练效率和性能。因此,本文以
             work, CRNN) 结构,结合了 CNN 和长短时记忆                     残差网络为基础,构建了 ASC 基础网络,其结构如
             (Long short-term memory, LSTM) 网络,使模型能            图1所示。
             够综合利用卷积操作提取的空间特征和 LSTM 单                              该基础网络主要由初级特征提取层 Conv、3
             元捕捉的时序信息。也有许多方法研究各种学习                             个残差组 (Residual group, RG)、全局平均池化
             策略以提升分类效果。文献 [11] 采用多任务学习策                        (Global average pooling, GAP) 层、全连接 (Fully
             略,联合 ASC 和声频事件分类两个任务,提出了一                         connected, FC) 层以及 Softmax 层组成。网络最前
             种关系引导的 ASC 模型 RGASC,充分利用声音场                       端是一个卷积层,其输出通道数为 64,卷积核大小
             景和声频事件之间的内在关系来提升网络的场景                             为5,作为初级特征提取层。随后,通过3 个RG的层
             分类能力。文献 [12] 应用迁移学习方法,首先利用                        叠,并逐渐增加输出特征通道数 (分别为128、256和
             AudioSet 数据集进行预训练,然后对预训练模型进                       512),以实现对声频信号更高级别特征的提取。每
             行微调,以适应新的 ASC 任务。预训练模型学到了                         个 RG 均由 4 个残差块 (Residual Block, RB) 组成,
             通用的声频特征,使得模型能更好地理解新的声学                            每个 RB 包含 2 个卷积层,卷积核大小为 3,在卷积
             场景的特征,无需从零开始学习基本特征,从而提高                           层后使用批归一化层和 ReLU 激活函数,以提升网
             了训练效率。另一个常见策略是使用注意力机制。                            络学习能力和泛化性能。之后,利用 GAP 层对特
             例如文献[13]用注意力池化层来学习每个时频单元                          征进行降维,FC 层则接收 GAP 层的输出,以生成
             的重要程度,从而改善了网络的分类性能。                               ASC预测。最终,FC层的输出经过Softmax激活函
                 尽管前述方法从特征提取、模型结构、学习范                          数处理后得到场景类别概率。
   50   51   52   53   54   55   56   57   58   59   60