Page 55 - 《应用声学》2025年第3期
P. 55
第 44 卷 第 3 期 杨雪同等: 基于注意力的双层级并行声学场景分类方法 589
式等角度出发开展 ASC研究,通过不同手段提升场
0 引言
景分类效果,但网络分类性能仍存在提升空间。此
声学场景分类 (Acoustic scene classification, 外,现有研究较少关注声学场景数据本身的特点,对
ASC) 旨在通过对声频信号的分析,将环境中的声 数据内在关系的了解不足。场景类别间存在层级关
音划分为不同的场景或环境类别,为计算机系统提 系,其中低层级类别分类细致,例如公园、广场等,更
供对环境背景的感知和理解能力,是计算机听觉任 符合实际应用。以往方法通常直接针对低层级场景
务之一 [1] 。在智能设备、声频监控系统以及智能家 进行分类,本文则从层级关系出发,提出一种基于注
居等领域,ASC有着广泛的应用 [2] 。 意力的双层级并行分类方法,构造并行的高低层级
随着深度学习的发展,越来越多的ASC方法基 类别的分类模型。结合知识蒸馏思想 [14−15] ,本文
于神经网络实现。这些方法通常先从声频数据中提 通过将高层级分类模型的特征作为知识传递给低
取声学特征,再利用神经网络模型进行分类。特征 层级分类模型,并利用注意力机制基于特征间距离
提取方法可分为两类:一是手工特征提取,这类特征 为低层级模型的各通道特征赋予权重,使低层级分
基于相关领域的知识、经验和规则而设计。典型特 类模型更关注关键特征,从而提高其在低层级场景
征包括梅尔倒谱系数 [3] 、梅尔谱图 [4] 、对数梅尔谱 分类中的性能。由于并行网络对同一声频可以输出
图 [5] 、滤波器组(Filter bank, FBank) [6] 等。另一类 两种层级类别的预测,因此本文增加了增强推理层
方法是构建可学习模型,自主学习从声频中提取特 (Enhance inference layer, EIL),以融合高低层级场
征。例如文献 [7] 基于卷积神经网络 (Convolutional 景的预测结果,进一步提升网络的低层级场景分类
neural network, CNN) 构建了 SoundNet,该网络能 能力。
够从声频中提取不同层次的特征,这些特征反映了
声频的各种细节。 1 ASC方法原理
除选择特征外,网络模型的结构以及学习范式
1.1 ASC基础网络
的选择对分类效果的影响也是至关重要的。CNN
在图像处理领域表现出色,因此研究者从声频中提 在ASC和声频分类等任务中,基于卷积网络的
取时频二维特征,并应用 VGG、Inception、ResNet 方法展现出了卓越的性能 [16−18] 。残差网络通过引
等卷积网络进行分类 [8−9] 。文献 [10] 采用了卷积 入残差连接,有效解决了深度卷积网络的梯度消失
循环神经网络 (Convolution recursive neural net- 问题,提高了模型的训练效率和性能。因此,本文以
work, CRNN) 结构,结合了 CNN 和长短时记忆 残差网络为基础,构建了 ASC 基础网络,其结构如
(Long short-term memory, LSTM) 网络,使模型能 图1所示。
够综合利用卷积操作提取的空间特征和 LSTM 单 该基础网络主要由初级特征提取层 Conv、3
元捕捉的时序信息。也有许多方法研究各种学习 个残差组 (Residual group, RG)、全局平均池化
策略以提升分类效果。文献 [11] 采用多任务学习策 (Global average pooling, GAP) 层、全连接 (Fully
略,联合 ASC 和声频事件分类两个任务,提出了一 connected, FC) 层以及 Softmax 层组成。网络最前
种关系引导的 ASC 模型 RGASC,充分利用声音场 端是一个卷积层,其输出通道数为 64,卷积核大小
景和声频事件之间的内在关系来提升网络的场景 为5,作为初级特征提取层。随后,通过3 个RG的层
分类能力。文献 [12] 应用迁移学习方法,首先利用 叠,并逐渐增加输出特征通道数 (分别为128、256和
AudioSet 数据集进行预训练,然后对预训练模型进 512),以实现对声频信号更高级别特征的提取。每
行微调,以适应新的 ASC 任务。预训练模型学到了 个 RG 均由 4 个残差块 (Residual Block, RB) 组成,
通用的声频特征,使得模型能更好地理解新的声学 每个 RB 包含 2 个卷积层,卷积核大小为 3,在卷积
场景的特征,无需从零开始学习基本特征,从而提高 层后使用批归一化层和 ReLU 激活函数,以提升网
了训练效率。另一个常见策略是使用注意力机制。 络学习能力和泛化性能。之后,利用 GAP 层对特
例如文献[13]用注意力池化层来学习每个时频单元 征进行降维,FC 层则接收 GAP 层的输出,以生成
的重要程度,从而改善了网络的分类性能。 ASC预测。最终,FC层的输出经过Softmax激活函
尽管前述方法从特征提取、模型结构、学习范 数处理后得到场景类别概率。