Page 88 - 《应用声学》2025年第3期
P. 88

622                                                                                  2025 年 5 月


             2.5 比较实验                                          图中的每一种颜色都代表一个种类的乐曲数据,当
                 本文将所提出的方法与当前主流乐曲风格                            同一颜色的点聚集越紧密、不同颜色的点越分散则
             模型 KCNN(k = 5)+SVM      [33] 、Hybrid model [34] 、  代表分类效果更好。
             BRNN+PCNNA     [35] 、CNN-5 [19] 、CNN-5+DPA [19]       从表 2 中可以看出,本文方法在四种性能指标
                                                               上均优于其他方法。充分证实了本文提出的方法在
             在数据增强后的GTZAN数据集上的性能进行了比
                                                               音乐风格识别任务上的优越性。
             较,并对该方法进行了详细的性能分析,以探讨该方
             法的有效性,结果如表2所示。图7 中显示了本文提                          2.6  消融实验
             出模型与其他模型的分类结果,该结果使用 t-SNE                             为了进一步验证所提出方法的有效性,在
             方法通过将高维空间中的相邻点映射到低维空间                             GTZAN 数据集上进行了一系列的消融实验。首先

             中保持相邻,使得相似的数据点在低维空间中也会                            移除了数据增强技术,然后移除了LG-Attention,最
             聚集在一起,从而将数据降维到二维空间进行可视                            后比较了仅使用传统 patch 划分方法的模型性能。
             化  [36] 。通过观察 t-SNE 散点图,可以发现不同风格                  消融实现的结果如表 3 所示,图 8 是消融实验的混
             的乐曲是否形成了明显的簇,验证模型的分类效果。                           淆矩阵图。
















                         (a) KCNN(k=5)+SVM            (b) Hybrid model           (c) BRNN+PCNNA














                             (d) CNN-5                 (e) CNN-5+DPA                (f) వ஡வข

                                                  图 7  分类结果可视化对比
                                         Fig. 7 Visual comparison of classification results

                                表 2  本文方法与其他方法在数据增强后的 GTZAN 数据集上的比较
                           Table 2 Comparison between the proposed method and other methods
                           on the data-enhanced GTZAN dataset

                                特征提取方法           准确率/%       精确度/%       召回率/%       F1-分数/%
                             KCNN(k = 5)+SVM       83.90       82.86       82.89       82.88
                                Hybrid model       91.00       89.47       90.82       90.14
                               BRNN+PCNNA          90.27       89.92       89.90       89.39
                                  CNN-5            89.30       88.49       88.62       89.05
                                CNN-5+DPA          91.40       91.06       91.05       91.24
                                  本文方法             94.80       94.49       94.58       94.53
   83   84   85   86   87   88   89   90   91   92   93