Page 88 - 《应用声学》2025年第3期
P. 88
622 2025 年 5 月
2.5 比较实验 图中的每一种颜色都代表一个种类的乐曲数据,当
本文将所提出的方法与当前主流乐曲风格 同一颜色的点聚集越紧密、不同颜色的点越分散则
模型 KCNN(k = 5)+SVM [33] 、Hybrid model [34] 、 代表分类效果更好。
BRNN+PCNNA [35] 、CNN-5 [19] 、CNN-5+DPA [19] 从表 2 中可以看出,本文方法在四种性能指标
上均优于其他方法。充分证实了本文提出的方法在
在数据增强后的GTZAN数据集上的性能进行了比
音乐风格识别任务上的优越性。
较,并对该方法进行了详细的性能分析,以探讨该方
法的有效性,结果如表2所示。图7 中显示了本文提 2.6 消融实验
出模型与其他模型的分类结果,该结果使用 t-SNE 为了进一步验证所提出方法的有效性,在
方法通过将高维空间中的相邻点映射到低维空间 GTZAN 数据集上进行了一系列的消融实验。首先
中保持相邻,使得相似的数据点在低维空间中也会 移除了数据增强技术,然后移除了LG-Attention,最
聚集在一起,从而将数据降维到二维空间进行可视 后比较了仅使用传统 patch 划分方法的模型性能。
化 [36] 。通过观察 t-SNE 散点图,可以发现不同风格 消融实现的结果如表 3 所示,图 8 是消融实验的混
的乐曲是否形成了明显的簇,验证模型的分类效果。 淆矩阵图。
(a) KCNN(k=5)+SVM (b) Hybrid model (c) BRNN+PCNNA
(d) CNN-5 (e) CNN-5+DPA (f) వவข
图 7 分类结果可视化对比
Fig. 7 Visual comparison of classification results
表 2 本文方法与其他方法在数据增强后的 GTZAN 数据集上的比较
Table 2 Comparison between the proposed method and other methods
on the data-enhanced GTZAN dataset
特征提取方法 准确率/% 精确度/% 召回率/% F1-分数/%
KCNN(k = 5)+SVM 83.90 82.86 82.89 82.88
Hybrid model 91.00 89.47 90.82 90.14
BRNN+PCNNA 90.27 89.92 89.90 89.39
CNN-5 89.30 88.49 88.62 89.05
CNN-5+DPA 91.40 91.06 91.05 91.24
本文方法 94.80 94.49 94.58 94.53