Page 82 - 《应用声学》2025年第3期
P. 82

616                                                                                  2025 年 5 月


                                                               了特征提取能力和模型的泛化性能。Wyse                   [15]  采用
             0 引言
                                                               了 Mel 频率倒谱系数 (Mel-frequency cepstrum co-
                                                               efficient, MFCC)特征作为输入数据,构建了一个卷
                 乐 曲 风 格 识 别 (Music genre classification,
             MGC) 作为音乐信息检索和个性化推荐系统的关                           积神经网络 (Convolutional neural network, CNN)
             键技术,在全球数字音乐库的组织和管理中扮演着                            模型,成功应用于音乐类型的分类。Lidy 等                   [16]  通
             至关重要的角色        [1−2] 。随着音乐产业的快速发展和                过将恒定 q 变换谱图作为 CNN 输入,也实现了音
             音乐内容的爆炸性增长,用户面临着从海量音乐资                            乐分类任务。这两项工作均展示了 CNN 在声频信
             源中找到符合个人喜好的音乐的挑战                   [3] 。有效的       号处理领域的有效性和应用潜力。Bahuleyan                 [17]  研
             MGC 技术能够帮助用户快速定位到特定风格的音                           究了使用 CNN 直接从声频频谱图特征进行音乐分
             乐,提升音乐体验的质量和效率。因此设计一种准                            类的方法,并与传统的结合时域和频域特征的机
             确率高的MGC方法显得尤为重要。                                  器学习分类器进行了比较,突出了深度学习在音
                 MGC 早期的研究主要集中在声频特征的手工                         乐类型识别中的潜力。Zhang 等             [18]  提出了一种基
             提取和分类模型的开发上            [4−6] 。特征提取将音乐的            于 CNN 结合池化和短连接的方法应用于曲风格分
             固有属性表示为特征向量,分类器模型将特征向量                            类。Wen等    [19]  提出了一种基于双并行注意力(Dual
             映射到不同的流派         [7] 。早期的方法主要依赖于声频                parallel attention, DPA)的CNN 方法(CNN-5),用
             信号的节奏、音调和音高等特征              [8] ,结合传统的机器          于音乐风格分类。该方法通过引入平行通道注意力
             学习算法,如支持向量机 (Support vector machine,              (Parallel channel attention, PCA)来构建歌曲中的

             SVM) 和隐马尔可夫模型 (Hidden Markov models,              全局时频依赖性,并研究了不同加权方法对 PCA
             HMM),进行音乐风格的分类              [9] 。Baniya 等  [10]  通  的影响。Gong等     [20]  设计了一个基于注意力机制的
             过结合音调织体和节奏内容特征来表征音乐,并                             模型 AST。与传统依赖CNN 的声频分类模型不同,

             采用极端学习机结合 Bagging 方法进行音乐分类。                       AST 是首个无卷积、纯粹基于注意力的声频分类模
             Arabi等 [11]  则提出了一种融合音乐的高级特征 (如                   型。它直接应用于声频频谱图,并能捕捉长距离全
             谐波、音高) 与低级特征的方法,并使用 SVM 作为                        局上下文依赖,为声频分类领域提供了一种新的视
             分类器进行音乐分类。陆阳等              [12]  提出了一种在四          角,并通过AST模型展示了注意力机制在处理声频
             分类坐标下建立高斯混合模型进行音乐信号归类                             数据时的强大能力。Liu 等            [21]  提出了一种使用局
             的研究方法。Tzanetakis等       [1]  研究了声频信号自动            部激活的门控神经网络 (LGNet),这种模型能够通
             分类为不同音乐流派的方法,并开发了 GTZAN 数                         过整合多个本地激活的多层感知器和门控路由网
             据集,这是一个用于音乐信号特征表示的标准集,包                           络自适应地将不同的网络层用作多学习器,从具有
             括音色、节奏和音高信息,广泛应用于音乐分类研                            不同特征的音乐信号中学习。
             究。Benetos等   [13]  从GTZAN数据集的1000个样本                  在 MGC 领域,尽管已有多种方法被提出以提
             中提取了包括频谱、时域、感知、能量和音高特征,并                          高分类精度,但由于音乐数据的复杂性和多样性,寻
             对比了基于非负张量分解的多线性分类器与多层                             找能够有效提取音乐特征并增强模型泛化能力的
             感知器和支持向量机的性能,验证了多线性方法在                            新方法仍然是该领域研究的重点                 [14,22] 。本研究提
             分类任务中的优越性。                                        设计一种新颖的方法,主要贡献如下:
                 近年来,深度学习在自然语言处理和计算机视                              (1) 设计了一种 patch 划分方法,不同于传统
             觉方面取得了突破性进展。深度学习的优势在于                             ViT(Vision transformer) 模型将输入数据划分为正
             它提供了端到端的学习模式,因而不需要单独设计                            方形的 patch,本文将每一时间段的频域信息视为
             特征。因此近年来越来越多的研究人员使用深度                             一个单独的 patch,从而使模型能在频域上执行自
             学习的方法进行乐曲风格分类。焦佳辉等                    [14]  提出    注意力操作。这种方法的提出,一方面增强了模型
             了 MGTN 模型,一种结合卷积注意力机制进行音                          在处理频域信息时的敏感性,使得模型能够更加精
             乐流派分类的方法。该模型整合了频谱图输入和                             准地感知乐曲中的时序结构和节奏变化,从而增强
             声频信号特征,通过构建声频时序数据,显著增强                            分类的效果。另一方面,由于每个patch都包含了完
   77   78   79   80   81   82   83   84   85   86   87