Page 239 - 《应用声学》2025年第1期
P. 239

第 44 卷 第 1 期          武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测                                          235


                                                               级识别系统的构建。Ariyanti 等           [20]  提出了一种集
             0 引言
                                                               成学习框架,该框架通过堆叠支持向量机作为弱分
                 近年来,由于不良生活习惯和职业因素,嗓音                          类器,并使用深度神经网络作为元学习器,以解决
             疾病的发生率显著上升           [1] 。2018 年,全球嗓音类癌           三类语声障碍的分类问题。此外,文献 [21] 结合相
             症的发病案例达 479,996 例,占当年癌症总发病数                       空间重构与 CNN对正常和病理嗓音进行区分。Lee
             的2.7%  [2] 。此外,病理嗓音问题在成人中的发生率                     等 [22]  的研究展示了通过融合过采样线性预测系数、
             也居高不下     [3] ,约20% 的儿童和青少年也患有声音                  MFCC 和深度学习技术进行正常和病理嗓音分类
             障碍,对患者的生活质量产生重大影响                 [4−5] 。         的强大能力。Aikendrajit等       [23]  通过分析健康、失眠
                 嗓音障碍评估分为主观评估和客观评估两类。                          和病态嗓音的多维度嗓音程序 (Multi-dimensional
             主观评估依赖于医生的评级,易受个人经验及主                             voice program, MDVP)参数变化,成功构建了嗓音
             观偏好的影响       [6] ,虽能有效辨识正常嗓音与病理                   分类的新框架。Gidaye 等         [24]  则专注于嗓音疾病的
             嗓音,却难以细致区分多种病理嗓音。客观评估                             严重程度评估,利用准闭相声门逆滤波算法估计声
             则通过提取共振峰、抖动、闪烁等声学特征,实现                            门容积速度波形,将嗓音疾病细分为轻度、中度和
             对嗓音状态的量化分析与非侵入式检测                    [7−8] 。例     重度。文献 [25] 深入探究了利用交叉验证结合精细
             如 Vashkevich 等 [9]  通过分析共振峰、抖动、闪烁等                化 k 近邻算法来提高健康与病理嗓音分类系统的
             声学特征,实现了对肌萎缩侧索硬化症患者的自                             准确率。然而,大多数病理嗓音数据库面临样本数
             动化分类。Dibazar 等      [10]  研究了梅尔频率倒谱系              量较少和不同类型病理嗓音样本分布不均衡的挑
             数 (Mel-frequency cepstral coefficients, MFCC) [11]  战,这直接限制了检测精度与分类性能的提升。文
             和抖动等特征在病理嗓音自动检测中的有效性。                             献 [26–27] 表明,尽管病理嗓音的多分类研究仍处于
             Kadiri等  [12]  进一步地从声门源波形中提取MFCC,                 初步阶段,但其在理论与实际应用中的潜在价值不
             并结合传统 MFCC 和感知线性预测特征,验证了                          容小觑。
             声门源特征在语声病理检测中的有效性。文献 [13]                             鉴于发声系统结构的复杂性,病理嗓音的诊断
             则采用了更为复杂的多通道架构,融合了梅尔频谱                            工作面临着数据量有限且分布不均衡、特征选择优
             图、MFCC、功率归一化倒谱系数及韵律参数 (如基                         化方法单一的问题,因此,本文提出了一种基于数
             频 F0、抖动 Jitter、颤动 Shimmer),并基于卷积神                 据增强和复杂特征优化的类不平衡病理嗓音检测
             经网络 (Convolutional neural network, CNN) 和双        算法。首先,本文采用了改进的合成少数类过采样
             向长短期记忆网络 (Bidirectional long short-term           技术 (Synthetic minority over-sampling technique,
             memory, BiLSTM)架构,实现了病理语声的高精度                     SMOTE) 对病理声学特征进行数据增广与均衡处
             分类。Zhao 等    [14]  提出了一种可解释多带特征提取                 理,重点关注处于类别边界附近的少数类样本,优
             网络,以提升自动病理语声检测的效果和泛化性能。                           先在这些样本的邻域内生成新的合成样本,以增强
             尽管嗓音障碍评估技术已取得进展,但特征选择策                            少数类的表示能力并强化边界特征,有效解决了病
             略仍面临诸多挑战:特征冗余增加计算负担,特征分                           理嗓音数据量有限及分布不均衡的问题;其次,针
             析选择方法未能捕捉关键特征,数据不平衡影响评                            对增广后的复杂声学特征优化问题,本文提出了一
             估准确性。因此,亟需优化特征选择策略,以克服这                           种高效相关性特征选择 (Efficient correlation-based
             些问题,推动嗓音障碍评估技术的发展。                                feature selection, ECFS) 算法,该算法通过启发式
                 近年来,病理嗓音研究主要聚焦于正常嗓音与                          函数引导声学特征的搜索过程,旨在快速筛选出与
             病理嗓音的二分类任务,以及正常嗓音与两类不                             目标病理嗓音类别高度相关且特征间冗余度低的
             同病理嗓音的三分类任务            [15−16] ,而且研究大多依           声学特征集,在有效精简特征空间并提高搜索效率
             托于 MEEI(Massachusetts eye and ear infirmary,       的同时,实现对复杂特征的初步优化;随后,基于
             MEEI)及 SVD(Saarbrücken voice database, SVD)       ECFS 算法选择的声学特征集,本文采用盒图对该
             数据库进行设计        [17−18] ,对更复杂的多分类任务探               声学特征集在各类病理嗓音类型中的数据分布范
             索相对较少。Cordeiro 等       [19]  通过引入分层分类器,           围和离散情况进行进一步的分析,通过综合评估各
             实现了对健康、生理性喉病理和神经肌肉喉病理三                            声学特征对区分不同病理嗓音类型的辨别能力,实
   234   235   236   237   238   239   240   241   242   243   244