Page 85 - 《应用声学》2025年第3期
P. 85

第 44 卷 第 3 期         林怡等: 使用自注意力机制及数据增强策略的乐曲风格识别方法                                          619


             enbedding 部分。该方法将 Mel 频谱图按时间序列                    号随时间变化的动态特性。通过这种划分,模型
             划分为多个patch,每个Patch包含了一段时间内的                       不仅能够学习声频中的局部频率特征,还能通过
             全部频率信息,这种做法有效地保留了声频数据的                            transformer 架构学习这些特征之间随时间变化的
             时序信息和频率细节。模型可以在多个时序 patch                         复杂关系,从而更准确地识别和理解声频中的风格
             之间进行特征融合,进一步增强对声频信号中跨时                            和内容。
             间特征的捕捉能力。这对于识别包含复杂节奏和变
                                                               1.5  LG-Attention
             奏的音乐风格尤为有利。
                                                                   Transformer 架构的模型中,在多头注意力模
                 在本文提出的时序 Patch 划分方法中,假设有
                                                               块捕获全局依赖关系之后采用 MLP进行特征转换。
             一个 Mel 频谱图 M,其尺寸为 T × F,其中 T 表示
                                                               本文提出一个新的替换方案,即将 MLP 模块更换
             时间维度上的总帧数,F 表示频率维度上的维度。
                                                               为卷积模块。这种方法通过结合多头注意力和卷积
             时序 patch 划分的目标是将 M 划分为一系列小的
                                                               操作,实现了对全局依赖关系和局部特征的双重捕
             patch,每个 patch 包含了一段时间长度内的全部频
                                                               捉,从而生成更为精细和丰富的特征表示,更适用
             率信息。这可以表示为
                                                               于节奏、旋律、和声等多方面特征的综合分析。这一
                                  ∪ N
                             M =       P i ,            (4)    方法包括三个关键的卷积层:1 × 1 卷积用于升维,
                                    i=1
             其中,P i 表示第i个patch,N 是总的patch数量。时                  3 × 3 卷积用于局部特征提取,以及另一个 1 × 1 卷
             间序列的 patch 划分方法使得模型能够关注到声                         积用于将特征降维,匹配原始特征维度,以便于模型
             频信号中每个时间点的频率分布,捕捉到声频信                             中的后续处理,其流程图如图4所示。


                                            ܳ݀ฌਓҧ

                                       Linear
                               Layer norm  Linear  Multi-head  attention  Concat  Linear  Dropout  ...



                     ...
                                       Linear                                                 Conv2d v2d
                                                                                              Con
                                                                                              s=1, k=1f1
                   Feature                        h



                                         Dropout

                                                    ...
                     ...
                                                                               Conv2d           Conv2d
                  Output                                                     s=1, k=1f1       s=1, k=3f3

                                                     图 4  LG-Attention
                                                    Fig. 4 LG-Attention

                 首先输入 LG-Attention 模块的特征 X 经过第                 1 × 1的卷积层,目的是通过扩展特征维度来增加网
             一层多头注意力模块进行全局特征捕捉,具体公式                            络的容量,为捕捉更复杂的特征关系做准备。该升
             如下:                                               维操作的数学表示如下:

                                            (     T  )
                                              QK
                                                                          ′
              A = Attention(Q, K, V ) = softmax √   V, (5)              F = ReLU(W 1×1 ∗ A + b 1×1 ),     (6)
                                                d K
             其中,Q、K、V 分别是查询、键、值向量,d K 是键向                      其中,F 表示经1 × 1卷积和ReLU激活函数处理后
                                                                      ′
             量的维度。第一层多头注意力模块的输出A再经过                            的特征,W 1×1 和b 1×1 分别是1 × 1 卷积的权重和偏
   80   81   82   83   84   85   86   87   88   89   90