Page 83 - 《应用声学》2025年第3期
P. 83
第 44 卷 第 3 期 林怡等: 使用自注意力机制及数据增强策略的乐曲风格识别方法 617
整的频率信息,模型可以在多个时序 patch 之间进
行特征融合,进一步增强对声频信号中跨时间特征 1 方法
的捕捉能力。这对于识别包含复杂节奏和变奏的音
1.1 整体流程
乐风格尤为有利。
本文采用深度学习技术对乐曲风格进行识别,
(2) 为了充分训练模型并提高其对不同音乐风
格的识别准确率,本文采用了多种针对声频特点的 整体流程如图1所示。首先,通过特征提取方法从乐
数据增强技术,包括谐波失真和频域增强等。这些 曲中提取特征,并生成Mel频谱图。Mel频谱图能够
方法不仅增加了数据集的多样性,还模拟了真实世 精确地反映乐曲中频率成分随时间的变化情况,为
界中可能遇到的各种声频质量问题,从而提高了模 MGC提供了重要的信息。在特征提取完成后,将所
型在实际应用中的鲁棒性。 有乐曲数据按照8:2 的比例划分为训练集和验证集,
(3) 考虑到 Transformer 模型本身缺乏有效提 以确保模型训练的有效性。为了进一步增强模型的
取局部特征的归纳偏置,使用了卷积模块替换 En- 泛化能力,对数据进行随机打乱处理,确保数据的随
coder 层中的多层感知机 (Multilayer perceptron, 机性。随后,将打乱后的数据以及对应的乐曲风格
MLP) 部分,通过卷积操作提取声频信号的局部 标签输入到本文提出的识别分类模型中进行训练。
特征。这种结合CNN和Transformer的方法利用了 在训练过程中,设置 100 个epoch作为训练周期,以
两者的优势,能够增强模型对于全局特征和局部特 确保模型能够充分收敛并达到最佳性能。在训练结
征的建模能力,更加精准捕捉乐曲在短时间以及长 束后,选择性能最优的模型进行保存,以便后续的评
时间段中的风格变化,提高音乐风格识别的准确度。 估和应用。
ྲढ़ଢԩ ᝫጷᬷ
വی δߛവی
ᰎᬷ ᝫጷ
图 1 模型训练流程图
Fig. 1 Model training flow chart
1.2 网络结构 习到这些动态变化,捕捉到音乐的表现力和情感特
近年来,Transformer架构凭借其在全局特征捕 征。在模型设计中,首先将输入的 Mel 频谱图沿时
获方面的优势,已经成为学术界的研究热点 [23−24] 。 域划分成多个 patch,这种独特的划分方式与传统
其主要优势在于能够有效整合输入数据的全局信 的图像 patch 划分不同,它能够更精准地捕捉乐曲
息,并通过注意力机制对特征进行加权,从而提升模 的频域特征并感知频率的变化,从而更有效地进行
型的性能 [25] 。为了进一步提高声频数据处理的能
乐曲风格的分类。接着,引入LG-Attention机制,将
力,本研究构建了一个新的网络架构,该架构融合了
传统的 Transformer 编码器中的 MLP 替换 CNN 模
局部 -全局注意力 (LG-Attention) 机制和时序数据
块。通过将 patch 数据整合成二维图像数据,再运
划分技术,以适应声频数据的特性。
用 3 × 3 的卷积核进行局部特征提取,这一步骤在
一方面,在数据预处理阶段,采用频域增强和
全局特征提取的基础上进一步挖掘局部特征,同时
重采样等数据增强方法模拟真实环境中的声频变
弥补了 Transformer 架构在归纳偏置方面的不足。
化,以此来扩充数据集。这些方法考虑了录制音乐
时的复杂环境情况,不仅显著增加了可用数据量, 最终将数据通过全局平均池化层 (Average polling)
还有效提升了模型的泛化能力。另一方面,音乐的 降维后使用一层全连接层 (Fully connected Layer,
动态变化,如音量的变化、渐强渐弱等,也是识别 FC Layer)进行分类。整个网络结构的流程图如图 2
音乐风格的重要因素。为了使模型能够更好地学 所示。