Page 239 - 《应用声学》2025年第1期
P. 239
第 44 卷 第 1 期 武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测 235
级识别系统的构建。Ariyanti 等 [20] 提出了一种集
0 引言
成学习框架,该框架通过堆叠支持向量机作为弱分
近年来,由于不良生活习惯和职业因素,嗓音 类器,并使用深度神经网络作为元学习器,以解决
疾病的发生率显著上升 [1] 。2018 年,全球嗓音类癌 三类语声障碍的分类问题。此外,文献 [21] 结合相
症的发病案例达 479,996 例,占当年癌症总发病数 空间重构与 CNN对正常和病理嗓音进行区分。Lee
的2.7% [2] 。此外,病理嗓音问题在成人中的发生率 等 [22] 的研究展示了通过融合过采样线性预测系数、
也居高不下 [3] ,约20% 的儿童和青少年也患有声音 MFCC 和深度学习技术进行正常和病理嗓音分类
障碍,对患者的生活质量产生重大影响 [4−5] 。 的强大能力。Aikendrajit等 [23] 通过分析健康、失眠
嗓音障碍评估分为主观评估和客观评估两类。 和病态嗓音的多维度嗓音程序 (Multi-dimensional
主观评估依赖于医生的评级,易受个人经验及主 voice program, MDVP)参数变化,成功构建了嗓音
观偏好的影响 [6] ,虽能有效辨识正常嗓音与病理 分类的新框架。Gidaye 等 [24] 则专注于嗓音疾病的
嗓音,却难以细致区分多种病理嗓音。客观评估 严重程度评估,利用准闭相声门逆滤波算法估计声
则通过提取共振峰、抖动、闪烁等声学特征,实现 门容积速度波形,将嗓音疾病细分为轻度、中度和
对嗓音状态的量化分析与非侵入式检测 [7−8] 。例 重度。文献 [25] 深入探究了利用交叉验证结合精细
如 Vashkevich 等 [9] 通过分析共振峰、抖动、闪烁等 化 k 近邻算法来提高健康与病理嗓音分类系统的
声学特征,实现了对肌萎缩侧索硬化症患者的自 准确率。然而,大多数病理嗓音数据库面临样本数
动化分类。Dibazar 等 [10] 研究了梅尔频率倒谱系 量较少和不同类型病理嗓音样本分布不均衡的挑
数 (Mel-frequency cepstral coefficients, MFCC) [11] 战,这直接限制了检测精度与分类性能的提升。文
和抖动等特征在病理嗓音自动检测中的有效性。 献 [26–27] 表明,尽管病理嗓音的多分类研究仍处于
Kadiri等 [12] 进一步地从声门源波形中提取MFCC, 初步阶段,但其在理论与实际应用中的潜在价值不
并结合传统 MFCC 和感知线性预测特征,验证了 容小觑。
声门源特征在语声病理检测中的有效性。文献 [13] 鉴于发声系统结构的复杂性,病理嗓音的诊断
则采用了更为复杂的多通道架构,融合了梅尔频谱 工作面临着数据量有限且分布不均衡、特征选择优
图、MFCC、功率归一化倒谱系数及韵律参数 (如基 化方法单一的问题,因此,本文提出了一种基于数
频 F0、抖动 Jitter、颤动 Shimmer),并基于卷积神 据增强和复杂特征优化的类不平衡病理嗓音检测
经网络 (Convolutional neural network, CNN) 和双 算法。首先,本文采用了改进的合成少数类过采样
向长短期记忆网络 (Bidirectional long short-term 技术 (Synthetic minority over-sampling technique,
memory, BiLSTM)架构,实现了病理语声的高精度 SMOTE) 对病理声学特征进行数据增广与均衡处
分类。Zhao 等 [14] 提出了一种可解释多带特征提取 理,重点关注处于类别边界附近的少数类样本,优
网络,以提升自动病理语声检测的效果和泛化性能。 先在这些样本的邻域内生成新的合成样本,以增强
尽管嗓音障碍评估技术已取得进展,但特征选择策 少数类的表示能力并强化边界特征,有效解决了病
略仍面临诸多挑战:特征冗余增加计算负担,特征分 理嗓音数据量有限及分布不均衡的问题;其次,针
析选择方法未能捕捉关键特征,数据不平衡影响评 对增广后的复杂声学特征优化问题,本文提出了一
估准确性。因此,亟需优化特征选择策略,以克服这 种高效相关性特征选择 (Efficient correlation-based
些问题,推动嗓音障碍评估技术的发展。 feature selection, ECFS) 算法,该算法通过启发式
近年来,病理嗓音研究主要聚焦于正常嗓音与 函数引导声学特征的搜索过程,旨在快速筛选出与
病理嗓音的二分类任务,以及正常嗓音与两类不 目标病理嗓音类别高度相关且特征间冗余度低的
同病理嗓音的三分类任务 [15−16] ,而且研究大多依 声学特征集,在有效精简特征空间并提高搜索效率
托于 MEEI(Massachusetts eye and ear infirmary, 的同时,实现对复杂特征的初步优化;随后,基于
MEEI)及 SVD(Saarbrücken voice database, SVD) ECFS 算法选择的声学特征集,本文采用盒图对该
数据库进行设计 [17−18] ,对更复杂的多分类任务探 声学特征集在各类病理嗓音类型中的数据分布范
索相对较少。Cordeiro 等 [19] 通过引入分层分类器, 围和离散情况进行进一步的分析,通过综合评估各
实现了对健康、生理性喉病理和神经肌肉喉病理三 声学特征对区分不同病理嗓音类型的辨别能力,实