Page 247 - 《应用声学》2025年第1期
P. 247

第 44 卷 第 1 期          武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测                                          243


                0.90                                           数据库中数据量少且不均衡的情况,采用 SMOTE
                                                    0.22
                0.88                                           改进算法进行数据增广和均衡处理,为特征分析提
                                                    0.20
                0.86
                                                               供了重要支持。随后,结合 ECFS 算法和盒图分析,
               ድᆸဋ  0.84                            0.18  Ᏺ௑   综合评估语声特征的分类能力,有效降低了处理辨
                0.82
                0.80                         ድᆸဋ    0.16       别能力较低特征的复杂度。最终,基于筛选后的声
                                             Ᏺ௑     0.14
                0.78                                           学特征,本文探讨了不同特征组合在随机森林分类
                0.76                                0.12
                                                               器下的检测效果,成功构建了高性能的类不均衡病
                    3    4    5    6    7    8    9
                                 ྲढ़ጸՌ                          理嗓音多分类系统。实验表明:所提出的融合优化
                                                               特征集 (To、Fatr、Jita、sAPQ、vAm、NHR) 在随机
                     图 8  不同特征组合准确率和耗时图
                                                               森林分类器下,达到了 88.6% 的分类准确率、88.4%
               Fig. 8 Accuracy and time consumption for various
                                                               的召回率、88.4%的F1分数和99.7%的AUC值。未
               feature combinations
                                                               来研究可进一步优化特征选择和增强算法,并结合
                 在进一步的实验中,基于融合优化特征集 (To、
                                                               更多类型的数据和先进模型,以提升系统在更广泛
             Fatr、Jita、sAPQ、vAm、NHR),本文比较了多种
                                                               应用场景中的表现。
             数据增广算法对分类性能的影响,实验结果如表 6
             所示。从结果可以看出,本文提出的增广算法在
             各项指标上均表现优异:精确率、召回率分别达到                                           参 考 文        献
             88.6%、88.4%,F1 值为 0.884,AUC值为 0.997,并且
             计算耗时仅为 0.17 s。相比之下,传统的 SMOTE和                       [1] Mendoza E, Carballo G. Vocal tremor and psychological
             ADASYN算法虽然提升了分类性能,但整体效果略                              stress[J]. Journal of Voice, 1999, 13(1): 105–112.
                                                                 [2] World Health Organization.  International agency
             低于本文算法,尤其是 ADASYN 算法的计算耗时
                                                                   for research on cancer today [EB/OL]. [2020-03-20].
             增至 0.31 s。Safe-Level-SMOTE、CP-SMOTE、文                 https://www.who.int/cancer.
             献 [33] 算法的分类效果均低于本文算法,且耗时更                          [3] Bhattacharyya N. The prevalence of voice problems
                                                                   among adults in the United States[J]. The Laryngoscope,
             长。此外,IO-SMOTE 在分类性能方面表现较差,
                                                                   2014, 124(10): 2359–2362.
             F1 值仅为 0.709,AUC 为 0.899,说明其不适合当前                   [4] American speech-language-hearing association. Voice dis-
             数据集的增广需求。综上所述,本文提出的增广算                                orders [EB/OL]. [2023-09-13]. https://www.asha.org/prac-
                                                                   tice-portal/clinical-topics/voice-disorders/.
             法在分类性能和计算效率之间达到了较好的平衡,
                                                                 [5] Zhang T, Liu X N, Liu G J, et al. PVR-AFM: A patholog-
             验证了其在本研究场景中的有效性。                                      ical voice repair system based on non-linear structure[J].
                    表 6   不同增广算法的分类性能比较                            Journal of Voice, 2023, 37(5): 648–662.
                                                                 [6] Hillenbrand J, Houde R A. Acoustic correlates of breathy
                Table 6 The comparison of classification
                                                                   vocal quality: Dysphonic voices and continuous speech[J].
                performance across different augmenta-
                                                                   Journal of Speech and Hearing Research, 1996, 39(2):
                tion algorithms                                    311–321.
                                                                 [7] Castellana A, Carullo A, Corbellini S, et al. Discrimi-
                   增广算法          P    R     F1  AUC  耗时/s
                                                                   nating pathological voice from healthy voice using cep-
                    本文          0.886 0.884  0.884  0.997  0.17    stral peak prominence smoothed distribution in sustained
                SMOTE [28−29]   0.847 0.847  0.845  0.968  0.17    vowel[J]. IEEE Transactions on Instrumentation and Mea-
                 ADASYN [30]    0.864 0.863  0.863  0.971  0.31    surement, 2018, 67(3): 646–654.
             Safe-Level-SMOTE [31]  0.872 0.871  0.871  0.976  0.31  [8] Kabache M, Guerti M. Multi parametric method for
                CP-SMOTE [32]   0.883 0.883  0.883  0.982  0.29    the objective acoustic evaluation of the voice produced
                IO-SMOTE [32]   0.709 0.715  0.709  0.899  0.18    by Laryngectomy patients[J]. Instrumentation, Mesures,
                   文献 [33]      0.824 0.823  0.818  0.956  0.24    Métrologies, 2021, 20(3): 137.
                                                                 [9] Vashkevich M, Rushkevich Y. Classification of ALS pa-
             3 结论                                                  tients based on acoustic analysis of sustained vowel phona-
                                                                   tions[J]. Biomedical Signal Processing and Control, 2021,
                                                                   65: 102350.
                 本文构建了一种基于数据增强和复杂特征优
                                                                [10] Dibazar A A, Narayanan S, Berger T W. Feature anal-
             化的类不平衡病理嗓音检测系统。首先,针对MEEI                              ysis for automatic detection of pathological speech[C]//
   242   243   244   245   246   247   248   249   250   251   252