Page 245 - 《应用声学》2025年第1期
P. 245

第 44 卷 第 1 期          武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测                                          241


             2.3 评价指标                                          如图 7 所示,图中 a、b、c、d 分别代表小结、息肉、水
                 为了全面评价算法的有效性,本文采用准确                           肿及麻痹。
             率、召回率、F1 分数和受试者工作特征曲线下面积                                    表 4  3、4、5、6 种最优特征组合
             (Area under curve, AUC)来评估分类效果。准确率                   Table 4    The optimal combinations of
             衡量正确分类的比例;召回率衡量模型对所有正类                               three, four, five and six features
             样本的识别能力;F1分数表示准确率和召回率的调
                                                                         特征组合              P    R   F1  AUC
             和平均值;AUC用于评估模型在区分不同嗓音类别
                                                                       To, Fatr, Jita    0.768 0.767 0.766 0.922
             方面的效果,其计算公式分别如式(4)∼(7)所示:
                                                                     To, Fatr, Jita, vAm  0.841 0.840 0.839 0.953
             Precision = TP/(TP + FP),                  (4)        To、Fatr、Jita、vAm、NHR  0.864 0.863 0.862 0.970
             Recall = TP/(TP + FN),                     (5)     To、Fatr、Jita、sAPQ、vAm、NHR 0.886 0.884 0.884 0.977
                   2 · Precision · Recall
             F1 =                    ,                  (6)        结果表明,从分类性能分析来看,3 种特征的最
                    Precision + Recall
                     ∑ [                                ]      佳组合为 To、Fatr、Jita,4 种特征的最佳组合为 To、
             AUC =       (Recall n − Recall n−1 ) · Precision n ,
                                                               Fatr、Jita、vAm,5 种特征的最佳组合为 To、Fatr、
                      n
                                                        (7)    Jita、vAm、NHR。随着特征组合数量的增加,整
                                                               体分类性能呈逐步提升态势。最终,基于本文提
             其中,真正例 (True positives, TP) 表示被模型正
                                                               出的融合优化特征集 (To、Fatr、Jita、sAPQ、vAm、
             确分类为正类的样本数;假正例 (False positives,
                                                               NHR),针对 4 种病理嗓音的分类任务,取得了最佳
             FP) 表示被模型错误分类为正类的样本数;假负例
                                                               性能,具体表现为:分类准确率高达 88.6%,召回率
             (False Negatives, FN) 表示被模型错误分类为负类
                                                               为 88.4%,F1 分数为 88.4%,AUC 值为 99.7%。图 7
             的样本数;下标 n 表示在某个特定的阈值状态下计
                                                               表明:当采用3种特征组合时,声带小结、息肉、水肿
             算的对应指标值。
                                                               正确分类的样本数量较多,但麻痹类别的误分类样
             2.4 病理嗓音分类系统构建与验证                                 本较多;随着特征组合增加到4 种,水肿类别的准确
                 为了实现高性能的病理嗓音多分类系统,本文                          率有所提升,但麻痹类的误分类问题依然显著;当特
             选择随机森林分类器进行实验。随机森林通过整合                            征组合达到 5 种时,息肉和麻痹类别的分类效果得
             多个决策树,不仅显著提升了分类的准确率,还有效                           到改善,误分类现象有所减少;进一步增加至6 种特
             防止了过拟合现象。它巧妙地利用了决策树之间的                            征组合时,所有类别的分类效果均达到最佳状态,尤
             多样性,增强了模型的鲁棒性,特别是在处理复杂                            其是麻痹类别的准确率显著提升。这一结果充分证
             且高维度的病理嗓音数据时,展现出了卓越的性能。                           明了本文提出的融合优化特征集能显著提升模型
             实验过程中,本文基于声带小结、息肉、水肿及麻                            的分类性能。
             痹 4 种病理嗓音进行了分析,每类病理嗓音均包含                              融合优化特征集包括 To、Fatr、Jita、sAPQ、
             300 个语声样本,并采用 10 折交叉验证法来进行设                       vAm、NHR,这些特征为病理嗓音分类提供了关键
             计。随机森林的参数配置如下:决策树量设为 100;                         且互补的信息。具体而言,To、Fatr、Jita、NHR 均
             不限制树的最大深度;节点再分裂所需的最小样本                            属于频域类特征,其中 To 捕捉声带振动的基频,对
             数设为 2;每个叶节点的最小样本数设为 1;每次分                         于识别声带功能的异常至关重要;Fatr 特征表征低
             裂时考虑的特征数量是全部特征;随机数种子设置                            频幅度调制的频率,反映短期不稳定性;Jita 擅长
             为1。基于融合优化后的Jita、vAm、NHR、To、Fatr、                  检测基频的细微和持续变化;NHR评估语声信号中
             sAPQ 语声特征集,本文进行了从 3∼6 种不同组合                       噪声与谐波的比率,为判断语声信号是否受噪声干
             特征的消融实验,共 42次实验。为了直观展现实验                          扰提供重要依据。sAPQ和vAm特征则属于时域类
             效果,本文最终展示了在 3∼6 种不同特征组合中筛                         特征,其中 sAPQ 代表平滑的幅度扰动;vAm 特征
             选出的最优组合的实验结果,如表 4 所示。此外,为                         则捕捉峰值幅度变化,深入分析信号幅度的不稳定
             了展示模型在 4 种病理类别的预测情况,本文对比                          性。这组多样化的特征集能够全面评估病理语声的
             了从 3∼6 种不同组合特征中最优组合的混淆矩阵,                         多维度特性,进而支持更准确、更可靠的分类。
   240   241   242   243   244   245   246   247   248   249   250