Page 86 - 《应用声学》2025年第3期
P. 86
620 2025 年 5 月
置,A 是多头注意力的输出特征,∗ 代表卷积操作。 2.2 实验环境和评价指标
随后,F 通过一个 3 × 3 的卷积层,用于提取局部特 为了确保实验之间的公平性并进行一致性比
′
征。与传统的全局处理相比,这一步骤使模型能够 较,仅对模型参数进行了适度调整。在每次实验开
更细致地感知数据的局部变化,强化对细节的把握。
始前,训练样本均会被随机打乱,并按照 8 : 2 的比
该步骤的计算公式如下:
例严格划分为训练集和测试集。实验中,统一将批
′′
′
F = ReLU(W 3×3 ∗ F + b 3×3 ), (7) 量大小 (batch size) 设定为 64,初始学习率 (initial
这里,F 是经 3 × 3 卷积层处理后的特征,W 3×3 和 learning rate) 设定为 0.01,并选用相同的优化算法
′′
b 3×3 是 3 × 3 卷积的权重和偏置。最后,一个 1 × 1 —随机梯度下降,同时应用指数衰减 (exponential
的卷积层被用于将特征降维回原始维度,确保特征 decay) 优化学习率。此外,为保持对比分析中参数
能够被模型中的后续层正确处理。通过这一层的处 设置的一致性和可靠性,所有实验均遵循相同的原
理,模型能够将提取到的局部特征与全局信息有效 始参数配置。本论文的硬件环境为:处理器:Intel酷
结合,从而提升识别和分类任务的性能。降维公式 睿I7,500 G内存;显卡:NVIDIA RTX 2080TI;系统
表示为 内存:12 G 显存。软件环境为:CUDA Toolkit 10.0;
′′
F ′′′ = ReLU(W ′ ∗ F + b 1×1 ), (8) CUDNN V7.5.0;Python 3.7;Pytorch-GPU1.14;操
1×1
作系统:Windows。
其中,F ′′′ 是最终的输出特征,W ′ 和 b ′ 是降维
1×1 1×1
1 × 1 卷积的权重和偏置。通过引入 1 × 1 卷积层进 评价指标:准确率 (accuracy)、召回率 (recall)、
F1-score 和精确率 (precision)。各指标的具体定义
行升维和降维,以及中间的3 × 3卷积层进行局部特
如下:
征提取,这一结构不仅加强了模型对声频信号中细
节特征的捕获能力,同时也提高了模型对于音乐风 TP + TN
Accuracy = , (9)
格分类等任务的准确性和鲁棒性,优化了模型的泛 TP + TN + FP + FN
TP
化能力。 Precision = , (10)
TP + Fp
Precision × Recall
2 实验结果分析 F-score = (1 + β) , (11)
β × Precision + Recall
2
TP
2.1 数据集 Recall = . (12)
TP + FN
本文使用公共数据集 GTZAN。该数据集是
在评估分类模型的性能时,使用 TP(真阳性)、
音乐信息检索领域中用于 MGC 的最著名数据集之
TN(真阴性)、FP(假阳性) 和 FN(假阴性) 这四个指
一。它由 George Tzanetakis 和 Perry Cook 在 2002
标。当β = 1时,称之为F1-分数。
年首次构建,为音乐风格识别和音乐信息检索研究
提供一个标准化的测试平台。这个数据集广泛用于
2.3 特征选择
测试和比较不同音乐风格识别算法的性能。
本文分别使用四种不同的征提取方法提取乐
GTZAN 数据集包含 1000 首歌曲,这些歌曲被
曲的声频特征,并使用提出的模型进行大量的比较
均匀分布在 10 个不同的音乐风格中,每个风格包
含 100 首歌曲。这些风格包括蓝调 (Blues)、古典 实验。采用四种广泛认可的声频特征提取技术,具
(Classical)、乡村 (Country)、迪斯科 (Disco)、嘻哈 体包括:STFT 时频图、同步压缩变换时频图 (SSQ-
(Hip-Hop)、爵士 (Jazz)、金属 (Metal)、流行 (Pop)、 STFT)、MFCC、Mel 频谱图 (Mel)。这些方法在声
雷鬼 (Reggae)、摇滚 (Rock)。每首歌曲的长度大约 频识别任务中因其出色的特征表达能力而被广泛
为 30 s,以 22050 Hz 的采样率、16 位的深度、单声 采用。为了直观展示这些特征的提取效果,提供了
道格式存储。这些声频片段被设计为代表其所属音 相应的可视化结果,具体展示在图 5 中。通过这些
乐风格的典型特征。本文在将每个声频下采样为 实验,旨在评估不同声频特征在 MGC 任务中的有
16000 Hz,并使用Adobe Audition 将每一段声频统 效性,并探讨它们在模型中的表现。各特征在本文
一剪切为4 s不重复的声频片段。 提出的模型上的实验结果如表1所示。