Page 83 - 《应用声学》2025年第3期

P. 83

第 44 卷第 3 期林怡等：使用自注意力机制及数据增强策略的乐曲风格识别方法 617

整的频率信息，模型可以在多个时序 patch 之间进
行特征融合，进一步增强对声频信号中跨时间特征 1 方法
的捕捉能力。这对于识别包含复杂节奏和变奏的音
1.1 整体流程
乐风格尤为有利。
本文采用深度学习技术对乐曲风格进行识别，
(2) 为了充分训练模型并提高其对不同音乐风
格的识别准确率，本文采用了多种针对声频特点的整体流程如图1所示。首先，通过特征提取方法从乐
数据增强技术，包括谐波失真和频域增强等。这些曲中提取特征，并生成Mel频谱图。Mel频谱图能够
方法不仅增加了数据集的多样性，还模拟了真实世精确地反映乐曲中频率成分随时间的变化情况，为
界中可能遇到的各种声频质量问题，从而提高了模 MGC提供了重要的信息。在特征提取完成后，将所
型在实际应用中的鲁棒性。有乐曲数据按照8:2 的比例划分为训练集和验证集，
(3) 考虑到 Transformer 模型本身缺乏有效提以确保模型训练的有效性。为了进一步增强模型的
取局部特征的归纳偏置，使用了卷积模块替换 En- 泛化能力，对数据进行随机打乱处理，确保数据的随
coder 层中的多层感知机 (Multilayer perceptron, 机性。随后，将打乱后的数据以及对应的乐曲风格
MLP) 部分，通过卷积操作提取声频信号的局部标签输入到本文提出的识别分类模型中进行训练。
特征。这种结合CNN和Transformer的方法利用了在训练过程中，设置 100 个epoch作为训练周期，以
两者的优势，能够增强模型对于全局特征和局部特确保模型能够充分收敛并达到最佳性能。在训练结
征的建模能力，更加精准捕捉乐曲在短时间以及长束后，选择性能最优的模型进行保存，以便后续的评
时间段中的风格变化，提高音乐风格识别的准确度。估和应用。

ྲढ़ଢԩ ᝫጷᬷ
വی δߛവی
ᰎ᝽ᬷ ᝫጷ

图 1 模型训练流程图
Fig. 1 Model training ﬂow chart

1.2 网络结构习到这些动态变化，捕捉到音乐的表现力和情感特

近年来，Transformer架构凭借其在全局特征捕征。在模型设计中，首先将输入的 Mel 频谱图沿时
获方面的优势，已经成为学术界的研究热点 [23−24] 。域划分成多个 patch，这种独特的划分方式与传统
其主要优势在于能够有效整合输入数据的全局信的图像 patch 划分不同，它能够更精准地捕捉乐曲
息，并通过注意力机制对特征进行加权，从而提升模的频域特征并感知频率的变化，从而更有效地进行
型的性能 [25] 。为了进一步提高声频数据处理的能
乐曲风格的分类。接着，引入LG-Attention机制，将
力，本研究构建了一个新的网络架构，该架构融合了
传统的 Transformer 编码器中的 MLP 替换 CNN 模
局部 -全局注意力 (LG-Attention) 机制和时序数据
块。通过将 patch 数据整合成二维图像数据，再运
划分技术，以适应声频数据的特性。
用 3 × 3 的卷积核进行局部特征提取，这一步骤在
一方面，在数据预处理阶段，采用频域增强和
全局特征提取的基础上进一步挖掘局部特征，同时
重采样等数据增强方法模拟真实环境中的声频变
弥补了 Transformer 架构在归纳偏置方面的不足。
化，以此来扩充数据集。这些方法考虑了录制音乐
时的复杂环境情况，不仅显著增加了可用数据量，最终将数据通过全局平均池化层 (Average polling)
还有效提升了模型的泛化能力。另一方面，音乐的降维后使用一层全连接层 (Fully connected Layer,
动态变化，如音量的变化、渐强渐弱等，也是识别 FC Layer)进行分类。整个网络结构的流程图如图 2
音乐风格的重要因素。为了使模型能够更好地学所示。

78 79 80 81 82 83 84 85 86 87 88