Page 83 - 《应用声学》2025年第3期
P. 83

第 44 卷 第 3 期         林怡等: 使用自注意力机制及数据增强策略的乐曲风格识别方法                                          617


             整的频率信息,模型可以在多个时序 patch 之间进
             行特征融合,进一步增强对声频信号中跨时间特征                            1 方法
             的捕捉能力。这对于识别包含复杂节奏和变奏的音
                                                               1.1  整体流程
             乐风格尤为有利。
                                                                   本文采用深度学习技术对乐曲风格进行识别,
                 (2) 为了充分训练模型并提高其对不同音乐风
             格的识别准确率,本文采用了多种针对声频特点的                            整体流程如图1所示。首先,通过特征提取方法从乐
             数据增强技术,包括谐波失真和频域增强等。这些                            曲中提取特征,并生成Mel频谱图。Mel频谱图能够
             方法不仅增加了数据集的多样性,还模拟了真实世                            精确地反映乐曲中频率成分随时间的变化情况,为
             界中可能遇到的各种声频质量问题,从而提高了模                            MGC提供了重要的信息。在特征提取完成后,将所
             型在实际应用中的鲁棒性。                                      有乐曲数据按照8:2 的比例划分为训练集和验证集,
                 (3) 考虑到 Transformer 模型本身缺乏有效提                 以确保模型训练的有效性。为了进一步增强模型的
             取局部特征的归纳偏置,使用了卷积模块替换 En-                          泛化能力,对数据进行随机打乱处理,确保数据的随
             coder 层中的多层感知机 (Multilayer perceptron,            机性。随后,将打乱后的数据以及对应的乐曲风格
             MLP) 部分,通过卷积操作提取声频信号的局部                           标签输入到本文提出的识别分类模型中进行训练。
             特征。这种结合CNN和Transformer的方法利用了                      在训练过程中,设置 100 个epoch作为训练周期,以
             两者的优势,能够增强模型对于全局特征和局部特                            确保模型能够充分收敛并达到最佳性能。在训练结
             征的建模能力,更加精准捕捉乐曲在短时间以及长                            束后,选择性能最优的模型进行保存,以便后续的评
             时间段中的风格变化,提高音乐风格识别的准确度。                           估和应用。



                                        ྲढ़ଢԩ                ᝫጷᬷ
                                                                         വی                δߛവی
                                                            ᰎ᝽ᬷ          ᝫጷ



                                                    图 1  模型训练流程图
                                               Fig. 1 Model training flow chart

             1.2 网络结构                                          习到这些动态变化,捕捉到音乐的表现力和情感特

                 近年来,Transformer架构凭借其在全局特征捕                    征。在模型设计中,首先将输入的 Mel 频谱图沿时
             获方面的优势,已经成为学术界的研究热点                    [23−24] 。  域划分成多个 patch,这种独特的划分方式与传统
             其主要优势在于能够有效整合输入数据的全局信                             的图像 patch 划分不同,它能够更精准地捕捉乐曲
             息,并通过注意力机制对特征进行加权,从而提升模                           的频域特征并感知频率的变化,从而更有效地进行
             型的性能    [25] 。为了进一步提高声频数据处理的能
                                                               乐曲风格的分类。接着,引入LG-Attention机制,将
             力,本研究构建了一个新的网络架构,该架构融合了
                                                               传统的 Transformer 编码器中的 MLP 替换 CNN 模
             局部 -全局注意力 (LG-Attention) 机制和时序数据
                                                               块。通过将 patch 数据整合成二维图像数据,再运
             划分技术,以适应声频数据的特性。
                                                               用 3 × 3 的卷积核进行局部特征提取,这一步骤在
                 一方面,在数据预处理阶段,采用频域增强和
                                                               全局特征提取的基础上进一步挖掘局部特征,同时
             重采样等数据增强方法模拟真实环境中的声频变
                                                               弥补了 Transformer 架构在归纳偏置方面的不足。
             化,以此来扩充数据集。这些方法考虑了录制音乐
             时的复杂环境情况,不仅显著增加了可用数据量,                            最终将数据通过全局平均池化层 (Average polling)
             还有效提升了模型的泛化能力。另一方面,音乐的                            降维后使用一层全连接层 (Fully connected Layer,
             动态变化,如音量的变化、渐强渐弱等,也是识别                            FC Layer)进行分类。整个网络结构的流程图如图 2
             音乐风格的重要因素。为了使模型能够更好地学                             所示。
   78   79   80   81   82   83   84   85   86   87   88