Page 89 - 《应用声学》2025年第3期
P. 89
第 44 卷 第 3 期 林怡等: 使用自注意力机制及数据增强策略的乐曲风格识别方法 623
150
rock 4 0 8 4 4 2 2 6 6 132 rock 4 0 7 5 3 1 11 8 1 140 150
reggae 4 0 0 1 1 1 0 0 136 0 reggae 0 0 1 5 2 0 0 5 144 1
120
pop 0 0 3 8 3 1 1 139 4 3 pop 0 0 3 4 1 0 2 128 3 2 120
metal 0 0 0 0 6 0 156 2 0 9 90 metal 0 0 0 1 1 0 144 3 0 5
Truth jazz 3 2 1 0 0 144 0 0 3 0 Truth jazz 3 2 0 0 0 150 0 0 0 1 90
hiphop 0 0 0 1 142 0 2 8 2 4 hiphop 0 0 0 2 152 0 0 9 2 2
60 60
disco 3 0 2 140 2 0 0 2 4 1 disco 1 1 4 141 2 1 1 2 3 3
country 3 0 143 2 0 3 0 2 3 6 country 2 1 141 1 0 0 1 3 2 3
30 30
classical 0 156 2 3 0 6 0 1 0 2 classical 0 156 2 1 -3 3 0 1 1 1
blues 143 2 2 1 2 1 0 0 2 3 blues 149 0 4 1 1 3 1 1 2 2
0 0
blues classical country disco hiphop jazz metal pop reggae rock blues classical country disco hiphop jazz metal pop reggae rock
Prediction Prediction
(a) ͜ፒpatchѳѬ (b) ۫patchѳѬ
rock 3 0 3 4 3 0 0 1 2 131 150 rock 1 0 5 1 1 0 3 2 0 147 150
reggae 0 0 0 1 1 0 0 1 143 2 reggae 0 0 0 1 1 0 0 4 152 0
pop 0 0 1 3 2 0 0 144 4 2 120 pop 0 0 2 3 4 0 1 145 2 2 120
metal 1 1 0 0 4 0 160 2 1 10 metal 0 0 2 0 1 0 155 0 0 3
Truth jazz 2 3 1 0 0 144 0 0 2 2 90 Truth jazz 2 1 1 0 0 155 0 1 0 0 90
hiphop 0 0 0 1 147 0 0 2 3 2 hiphop 0 0 0 1 152 0 0 1 2 2
60 60
disco 1 0 1 145 0 0 0 3 1 2 disco 0 0 3 149 0 0 1 2 1 2
country 1 0 151 2 1 5 0 6 1 5 country 2 1 147 2 0 0 0 3 0 3
30 30
classical 0 156 0 4 0 9 0 1 0 2 classical 0 158 0 3 0 3 0 1 2 1
blues 152 0 3 0 3 0 0 0 3 2 blues 155 0 0 0 1 0 1 1 0
0 0
blues classical country disco hiphop jazz metal pop reggae rock blues classical country disco hiphop jazz metal pop reggae rock
Prediction Prediction
c) ۫patchѳѬ+ࡍᦊ-Лࡍฌਓҧ (d) ۫patchѳѬ+LG-attention+ܙू
图 8 消融实验的混淆矩阵
Fig. 8 Confusion matrix of ablation experiment
表 3 在 GTZAN 数据集上的消融实验结果
Table 3 Results of ablation experiments on GTZAN dataset
特征提取方法 准确率/% 精确度/% 召回率/% F1-分数/%
传统 patch 划分 89.61 89.54 89.67 89.61
时域 patch 划分 90.73 90.42 90.59 90.50
时域 patch 划分 +LG-Attention 92.49 92.17 92.29 92.23
时域 patch 划分 +LG-Attention+ 数据增强 94.80 94.49 94.58 94.53
从表 3 中可以看出,仅使用传统 patch 划分的 升,准确率提高到了 92.49%。这说明 LG-Attention
模型在 GTZAN 数据集上的各项指标表明传统方 能够有效地识别声频中的关键信息,并提高分类
法已经具有一定的基础性能,但仍有提升空间。当 的准确性。最后,当结合数据增强技术后,模型
引入时域 patch 划分后,模型的各项指标都有明 的性能达到了最佳,准确率、精确度、召回率和
显的提升,这一结果表明,时域 patch 划分对于捕 F1 分数均达到了 94.80%。这一结果充分证明了数
捉声频数据的时间特性是有效的。进一步地,当 据增强技术在提高模型泛化能力和鲁棒性方面的
加入 LG-Attention 后,模型的性能得到了显著提 重要性。