Page 245 - 《应用声学》2025年第1期
P. 245
第 44 卷 第 1 期 武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测 241
2.3 评价指标 如图 7 所示,图中 a、b、c、d 分别代表小结、息肉、水
为了全面评价算法的有效性,本文采用准确 肿及麻痹。
率、召回率、F1 分数和受试者工作特征曲线下面积 表 4 3、4、5、6 种最优特征组合
(Area under curve, AUC)来评估分类效果。准确率 Table 4 The optimal combinations of
衡量正确分类的比例;召回率衡量模型对所有正类 three, four, five and six features
样本的识别能力;F1分数表示准确率和召回率的调
特征组合 P R F1 AUC
和平均值;AUC用于评估模型在区分不同嗓音类别
To, Fatr, Jita 0.768 0.767 0.766 0.922
方面的效果,其计算公式分别如式(4)∼(7)所示:
To, Fatr, Jita, vAm 0.841 0.840 0.839 0.953
Precision = TP/(TP + FP), (4) To、Fatr、Jita、vAm、NHR 0.864 0.863 0.862 0.970
Recall = TP/(TP + FN), (5) To、Fatr、Jita、sAPQ、vAm、NHR 0.886 0.884 0.884 0.977
2 · Precision · Recall
F1 = , (6) 结果表明,从分类性能分析来看,3 种特征的最
Precision + Recall
∑ [ ] 佳组合为 To、Fatr、Jita,4 种特征的最佳组合为 To、
AUC = (Recall n − Recall n−1 ) · Precision n ,
Fatr、Jita、vAm,5 种特征的最佳组合为 To、Fatr、
n
(7) Jita、vAm、NHR。随着特征组合数量的增加,整
体分类性能呈逐步提升态势。最终,基于本文提
其中,真正例 (True positives, TP) 表示被模型正
出的融合优化特征集 (To、Fatr、Jita、sAPQ、vAm、
确分类为正类的样本数;假正例 (False positives,
NHR),针对 4 种病理嗓音的分类任务,取得了最佳
FP) 表示被模型错误分类为正类的样本数;假负例
性能,具体表现为:分类准确率高达 88.6%,召回率
(False Negatives, FN) 表示被模型错误分类为负类
为 88.4%,F1 分数为 88.4%,AUC 值为 99.7%。图 7
的样本数;下标 n 表示在某个特定的阈值状态下计
表明:当采用3种特征组合时,声带小结、息肉、水肿
算的对应指标值。
正确分类的样本数量较多,但麻痹类别的误分类样
2.4 病理嗓音分类系统构建与验证 本较多;随着特征组合增加到4 种,水肿类别的准确
为了实现高性能的病理嗓音多分类系统,本文 率有所提升,但麻痹类的误分类问题依然显著;当特
选择随机森林分类器进行实验。随机森林通过整合 征组合达到 5 种时,息肉和麻痹类别的分类效果得
多个决策树,不仅显著提升了分类的准确率,还有效 到改善,误分类现象有所减少;进一步增加至6 种特
防止了过拟合现象。它巧妙地利用了决策树之间的 征组合时,所有类别的分类效果均达到最佳状态,尤
多样性,增强了模型的鲁棒性,特别是在处理复杂 其是麻痹类别的准确率显著提升。这一结果充分证
且高维度的病理嗓音数据时,展现出了卓越的性能。 明了本文提出的融合优化特征集能显著提升模型
实验过程中,本文基于声带小结、息肉、水肿及麻 的分类性能。
痹 4 种病理嗓音进行了分析,每类病理嗓音均包含 融合优化特征集包括 To、Fatr、Jita、sAPQ、
300 个语声样本,并采用 10 折交叉验证法来进行设 vAm、NHR,这些特征为病理嗓音分类提供了关键
计。随机森林的参数配置如下:决策树量设为 100; 且互补的信息。具体而言,To、Fatr、Jita、NHR 均
不限制树的最大深度;节点再分裂所需的最小样本 属于频域类特征,其中 To 捕捉声带振动的基频,对
数设为 2;每个叶节点的最小样本数设为 1;每次分 于识别声带功能的异常至关重要;Fatr 特征表征低
裂时考虑的特征数量是全部特征;随机数种子设置 频幅度调制的频率,反映短期不稳定性;Jita 擅长
为1。基于融合优化后的Jita、vAm、NHR、To、Fatr、 检测基频的细微和持续变化;NHR评估语声信号中
sAPQ 语声特征集,本文进行了从 3∼6 种不同组合 噪声与谐波的比率,为判断语声信号是否受噪声干
特征的消融实验,共 42次实验。为了直观展现实验 扰提供重要依据。sAPQ和vAm特征则属于时域类
效果,本文最终展示了在 3∼6 种不同特征组合中筛 特征,其中 sAPQ 代表平滑的幅度扰动;vAm 特征
选出的最优组合的实验结果,如表 4 所示。此外,为 则捕捉峰值幅度变化,深入分析信号幅度的不稳定
了展示模型在 4 种病理类别的预测情况,本文对比 性。这组多样化的特征集能够全面评估病理语声的
了从 3∼6 种不同组合特征中最优组合的混淆矩阵, 多维度特性,进而支持更准确、更可靠的分类。