Page 89 - 《应用声学》2025年第3期
P. 89

第 44 卷 第 3 期         林怡等: 使用自注意力机制及数据增强策略的乐曲风格识别方法                                          623

                                                         150
                    rock  4  0  8  4  4  2  2  6  6 132           rock  4  0  7  5  3  1  11  8  1 140  150
                   reggae  4  0  0  1  1  1  0  0 136 0          reggae  0  0  1  5  2  0  0  5 144 1
                                                         120
                    pop  0  0  3  8  3  1  1 139 4  3             pop  0  0  3  4  1  0  2 128 3  2    120
                   metal  0  0  0  0  6  0 156 2  0  9   90      metal  0  0  0  1  1  0 144 3  0  5
                 Truth  jazz  3  2  1  0  0  144 0  0  3  0    Truth  jazz  3  2  0  0  0  150 0  0  0  1  90
                  hiphop  0  0  0  1 142  0  2  8  2  4         hiphop  0  0  0  2 152  0  0  9  2  2
                                                         60                                            60
                    disco  3  0  2 140 2  0  0  2  4  1          disco  1  1  4 141 2  1  1  2  3  3
                  country  3  0 143 2  0  3  0  2  3  6         country  2  1 141 1  0  0  1  3  2  3
                                                         30                                            30
                 classical  0 156 2  3  0  6  0  1  0  2       classical  0 156 2  1 -3  3  0  1  1  1
                    blues 143 2  2  1  2  1  0  0  2  3          blues 149 0  4  1  1  3  1  1  2  2
                                                         0                                             0
                       blues classical country  disco hiphop  jazz  metal  pop reggae  rock  blues classical country  disco hiphop  jazz  metal  pop  reggae  rock

                                    Prediction                                   Prediction
                                 (a) ͜ፒpatchѳѬ                                (b) ௑۫patchѳѬ


                    rock  3  0  3  4  3  0  0  1  2 131  150      rock  1  0  5  1  1  0  3  2  0 147  150
                   reggae  0  0  0  1  1  0  0  1 143 2         reggae  0  0  0  1  1  0  0  4 152 0
                    pop  0  0  1  3  2  0  0 144 4  2    120      pop  0  0  2  3  4  0  1 145 2  2    120
                   metal  1  1  0  0  4  0 160 2  1  10          metal  0  0  2  0  1  0 155 0  0  3
                 Truth  jazz  2  3  1  0  0  144 0  0  2  2  90  Truth  jazz  2  1  1  0  0  155 0  1  0  0  90

                  hiphop  0  0  0  1 147  0  0  2  3  2         hiphop  0  0  0  1 152  0  0  1  2  2
                                                         60                                            60
                    disco  1  0  1 145 0  0  0  3  1  2          disco  0  0  3 149 0  0  1  2  1  2
                  country  1  0 151 2  1  5  0  6  1  5         country  2  1 147 2  0  0  0  3  0  3
                                                         30                                            30
                 classical  0 156 0  4  0  9  0  1  0  2       classical  0 158 0  3  0  3  0  1  2  1
                    blues 152 0  3  0  3  0  0  0  3  2          blues 155 0  0  0  1  0   1  1  0
                                                         0                                             0
                       blues classical country  disco hiphop  jazz  metal  pop reggae  rock  blues classical country  disco hiphop  jazz  metal  pop  reggae  rock
                                    Prediction                                   Prediction
                             c) ௑۫patchѳѬ+ࡍᦊ-Лࡍฌਓҧ                    (d) ௑۫patchѳѬ+LG-attention+஝૶ܙू
                                                  图 8  消融实验的混淆矩阵
                                         Fig. 8 Confusion matrix of ablation experiment

                                          表 3   在 GTZAN 数据集上的消融实验结果
                                Table 3 Results of ablation experiments on GTZAN dataset

                                       特征提取方法               准确率/%    精确度/% 召回率/% F1-分数/%
                                      传统 patch 划分             89.61    89.54   89.67    89.61
                                      时域 patch 划分             90.73    90.42   90.59    90.50
                                时域 patch 划分 +LG-Attention     92.49    92.17   92.29    92.23
                            时域 patch 划分 +LG-Attention+ 数据增强   94.80    94.49   94.58    94.53


                 从表 3 中可以看出,仅使用传统 patch 划分的                    升,准确率提高到了 92.49%。这说明 LG-Attention
             模型在 GTZAN 数据集上的各项指标表明传统方                          能够有效地识别声频中的关键信息,并提高分类
             法已经具有一定的基础性能,但仍有提升空间。当                            的准确性。最后,当结合数据增强技术后,模型
             引入时域 patch 划分后,模型的各项指标都有明                         的性能达到了最佳,准确率、精确度、召回率和
             显的提升,这一结果表明,时域 patch 划分对于捕                        F1 分数均达到了 94.80%。这一结果充分证明了数
             捉声频数据的时间特性是有效的。进一步地,当                             据增强技术在提高模型泛化能力和鲁棒性方面的
             加入 LG-Attention 后,模型的性能得到了显著提                     重要性。
   84   85   86   87   88   89   90   91   92   93   94