Page 86 - 《应用声学》2025年第3期
P. 86

620                                                                                  2025 年 5 月


             置,A 是多头注意力的输出特征,∗ 代表卷积操作。                         2.2  实验环境和评价指标
             随后,F 通过一个 3 × 3 的卷积层,用于提取局部特                          为了确保实验之间的公平性并进行一致性比
                    ′
             征。与传统的全局处理相比,这一步骤使模型能够                            较,仅对模型参数进行了适度调整。在每次实验开
             更细致地感知数据的局部变化,强化对细节的把握。
                                                               始前,训练样本均会被随机打乱,并按照 8 : 2 的比
             该步骤的计算公式如下:
                                                               例严格划分为训练集和测试集。实验中,统一将批
                       ′′
                                         ′
                     F = ReLU(W 3×3 ∗ F + b 3×3 ),      (7)    量大小 (batch size) 设定为 64,初始学习率 (initial
             这里,F 是经 3 × 3 卷积层处理后的特征,W 3×3 和                   learning rate) 设定为 0.01,并选用相同的优化算法
                    ′′
             b 3×3 是 3 × 3 卷积的权重和偏置。最后,一个 1 × 1                —随机梯度下降,同时应用指数衰减 (exponential
             的卷积层被用于将特征降维回原始维度,确保特征                            decay) 优化学习率。此外,为保持对比分析中参数
             能够被模型中的后续层正确处理。通过这一层的处                            设置的一致性和可靠性,所有实验均遵循相同的原
             理,模型能够将提取到的局部特征与全局信息有效                            始参数配置。本论文的硬件环境为:处理器:Intel酷
             结合,从而提升识别和分类任务的性能。降维公式                            睿I7,500 G内存;显卡:NVIDIA RTX 2080TI;系统
             表示为                                               内存:12 G 显存。软件环境为:CUDA Toolkit 10.0;
                                         ′′
                     F  ′′′  = ReLU(W  ′  ∗ F + b 1×1 ),  (8)  CUDNN V7.5.0;Python 3.7;Pytorch-GPU1.14;操
                                   1×1
                                                               作系统:Windows。
             其中,F   ′′′  是最终的输出特征,W       ′  和 b  ′  是降维
                                          1×1    1×1
             1 × 1 卷积的权重和偏置。通过引入 1 × 1 卷积层进                        评价指标:准确率 (accuracy)、召回率 (recall)、
                                                               F1-score 和精确率 (precision)。各指标的具体定义
             行升维和降维,以及中间的3 × 3卷积层进行局部特
                                                               如下:
             征提取,这一结构不仅加强了模型对声频信号中细
             节特征的捕获能力,同时也提高了模型对于音乐风                                               TP + TN
                                                                 Accuracy =                     ,         (9)
             格分类等任务的准确性和鲁棒性,优化了模型的泛                                          TP + TN + FP + FN
                                                                               TP
             化能力。                                                Precision =         ,                   (10)
                                                                            TP + Fp
                                                                                    Precision × Recall
             2 实验结果分析                                            F-score = (1 + β)                     , (11)
                                                                                 β × Precision + Recall
                                                                                  2
                                                                            TP
             2.1 数据集                                             Recall =         .                      (12)
                                                                          TP + FN
                 本文使用公共数据集 GTZAN。该数据集是
                                                                   在评估分类模型的性能时,使用 TP(真阳性)、
             音乐信息检索领域中用于 MGC 的最著名数据集之
                                                               TN(真阴性)、FP(假阳性) 和 FN(假阴性) 这四个指
             一。它由 George Tzanetakis 和 Perry Cook 在 2002
                                                               标。当β = 1时,称之为F1-分数。
             年首次构建,为音乐风格识别和音乐信息检索研究
             提供一个标准化的测试平台。这个数据集广泛用于
                                                               2.3  特征选择
             测试和比较不同音乐风格识别算法的性能。
                                                                   本文分别使用四种不同的征提取方法提取乐
                 GTZAN 数据集包含 1000 首歌曲,这些歌曲被
                                                               曲的声频特征,并使用提出的模型进行大量的比较
             均匀分布在 10 个不同的音乐风格中,每个风格包
             含 100 首歌曲。这些风格包括蓝调 (Blues)、古典                     实验。采用四种广泛认可的声频特征提取技术,具
             (Classical)、乡村 (Country)、迪斯科 (Disco)、嘻哈           体包括:STFT 时频图、同步压缩变换时频图 (SSQ-
             (Hip-Hop)、爵士 (Jazz)、金属 (Metal)、流行 (Pop)、          STFT)、MFCC、Mel 频谱图 (Mel)。这些方法在声
             雷鬼 (Reggae)、摇滚 (Rock)。每首歌曲的长度大约                   频识别任务中因其出色的特征表达能力而被广泛
             为 30 s,以 22050 Hz 的采样率、16 位的深度、单声                 采用。为了直观展示这些特征的提取效果,提供了
             道格式存储。这些声频片段被设计为代表其所属音                            相应的可视化结果,具体展示在图 5 中。通过这些
             乐风格的典型特征。本文在将每个声频下采样为                             实验,旨在评估不同声频特征在 MGC 任务中的有
             16000 Hz,并使用Adobe Audition 将每一段声频统                效性,并探讨它们在模型中的表现。各特征在本文
             一剪切为4 s不重复的声频片段。                                  提出的模型上的实验结果如表1所示。
   81   82   83   84   85   86   87   88   89   90   91