Page 82 - 《应用声学》2025年第3期
P. 82
616 2025 年 5 月
了特征提取能力和模型的泛化性能。Wyse [15] 采用
0 引言
了 Mel 频率倒谱系数 (Mel-frequency cepstrum co-
efficient, MFCC)特征作为输入数据,构建了一个卷
乐 曲 风 格 识 别 (Music genre classification,
MGC) 作为音乐信息检索和个性化推荐系统的关 积神经网络 (Convolutional neural network, CNN)
键技术,在全球数字音乐库的组织和管理中扮演着 模型,成功应用于音乐类型的分类。Lidy 等 [16] 通
至关重要的角色 [1−2] 。随着音乐产业的快速发展和 过将恒定 q 变换谱图作为 CNN 输入,也实现了音
音乐内容的爆炸性增长,用户面临着从海量音乐资 乐分类任务。这两项工作均展示了 CNN 在声频信
源中找到符合个人喜好的音乐的挑战 [3] 。有效的 号处理领域的有效性和应用潜力。Bahuleyan [17] 研
MGC 技术能够帮助用户快速定位到特定风格的音 究了使用 CNN 直接从声频频谱图特征进行音乐分
乐,提升音乐体验的质量和效率。因此设计一种准 类的方法,并与传统的结合时域和频域特征的机
确率高的MGC方法显得尤为重要。 器学习分类器进行了比较,突出了深度学习在音
MGC 早期的研究主要集中在声频特征的手工 乐类型识别中的潜力。Zhang 等 [18] 提出了一种基
提取和分类模型的开发上 [4−6] 。特征提取将音乐的 于 CNN 结合池化和短连接的方法应用于曲风格分
固有属性表示为特征向量,分类器模型将特征向量 类。Wen等 [19] 提出了一种基于双并行注意力(Dual
映射到不同的流派 [7] 。早期的方法主要依赖于声频 parallel attention, DPA)的CNN 方法(CNN-5),用
信号的节奏、音调和音高等特征 [8] ,结合传统的机器 于音乐风格分类。该方法通过引入平行通道注意力
学习算法,如支持向量机 (Support vector machine, (Parallel channel attention, PCA)来构建歌曲中的
SVM) 和隐马尔可夫模型 (Hidden Markov models, 全局时频依赖性,并研究了不同加权方法对 PCA
HMM),进行音乐风格的分类 [9] 。Baniya 等 [10] 通 的影响。Gong等 [20] 设计了一个基于注意力机制的
过结合音调织体和节奏内容特征来表征音乐,并 模型 AST。与传统依赖CNN 的声频分类模型不同,
采用极端学习机结合 Bagging 方法进行音乐分类。 AST 是首个无卷积、纯粹基于注意力的声频分类模
Arabi等 [11] 则提出了一种融合音乐的高级特征 (如 型。它直接应用于声频频谱图,并能捕捉长距离全
谐波、音高) 与低级特征的方法,并使用 SVM 作为 局上下文依赖,为声频分类领域提供了一种新的视
分类器进行音乐分类。陆阳等 [12] 提出了一种在四 角,并通过AST模型展示了注意力机制在处理声频
分类坐标下建立高斯混合模型进行音乐信号归类 数据时的强大能力。Liu 等 [21] 提出了一种使用局
的研究方法。Tzanetakis等 [1] 研究了声频信号自动 部激活的门控神经网络 (LGNet),这种模型能够通
分类为不同音乐流派的方法,并开发了 GTZAN 数 过整合多个本地激活的多层感知器和门控路由网
据集,这是一个用于音乐信号特征表示的标准集,包 络自适应地将不同的网络层用作多学习器,从具有
括音色、节奏和音高信息,广泛应用于音乐分类研 不同特征的音乐信号中学习。
究。Benetos等 [13] 从GTZAN数据集的1000个样本 在 MGC 领域,尽管已有多种方法被提出以提
中提取了包括频谱、时域、感知、能量和音高特征,并 高分类精度,但由于音乐数据的复杂性和多样性,寻
对比了基于非负张量分解的多线性分类器与多层 找能够有效提取音乐特征并增强模型泛化能力的
感知器和支持向量机的性能,验证了多线性方法在 新方法仍然是该领域研究的重点 [14,22] 。本研究提
分类任务中的优越性。 设计一种新颖的方法,主要贡献如下:
近年来,深度学习在自然语言处理和计算机视 (1) 设计了一种 patch 划分方法,不同于传统
觉方面取得了突破性进展。深度学习的优势在于 ViT(Vision transformer) 模型将输入数据划分为正
它提供了端到端的学习模式,因而不需要单独设计 方形的 patch,本文将每一时间段的频域信息视为
特征。因此近年来越来越多的研究人员使用深度 一个单独的 patch,从而使模型能在频域上执行自
学习的方法进行乐曲风格分类。焦佳辉等 [14] 提出 注意力操作。这种方法的提出,一方面增强了模型
了 MGTN 模型,一种结合卷积注意力机制进行音 在处理频域信息时的敏感性,使得模型能够更加精
乐流派分类的方法。该模型整合了频谱图输入和 准地感知乐曲中的时序结构和节奏变化,从而增强
声频信号特征,通过构建声频时序数据,显著增强 分类的效果。另一方面,由于每个patch都包含了完