Page 247 - 《应用声学》2025年第1期
P. 247
第 44 卷 第 1 期 武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测 243
0.90 数据库中数据量少且不均衡的情况,采用 SMOTE
0.22
0.88 改进算法进行数据增广和均衡处理,为特征分析提
0.20
0.86
供了重要支持。随后,结合 ECFS 算法和盒图分析,
ድᆸဋ 0.84 0.18 Ᏺ 综合评估语声特征的分类能力,有效降低了处理辨
0.82
0.80 ድᆸဋ 0.16 别能力较低特征的复杂度。最终,基于筛选后的声
Ᏺ 0.14
0.78 学特征,本文探讨了不同特征组合在随机森林分类
0.76 0.12
器下的检测效果,成功构建了高性能的类不均衡病
3 4 5 6 7 8 9
ྲढ़ጸՌ 理嗓音多分类系统。实验表明:所提出的融合优化
特征集 (To、Fatr、Jita、sAPQ、vAm、NHR) 在随机
图 8 不同特征组合准确率和耗时图
森林分类器下,达到了 88.6% 的分类准确率、88.4%
Fig. 8 Accuracy and time consumption for various
的召回率、88.4%的F1分数和99.7%的AUC值。未
feature combinations
来研究可进一步优化特征选择和增强算法,并结合
在进一步的实验中,基于融合优化特征集 (To、
更多类型的数据和先进模型,以提升系统在更广泛
Fatr、Jita、sAPQ、vAm、NHR),本文比较了多种
应用场景中的表现。
数据增广算法对分类性能的影响,实验结果如表 6
所示。从结果可以看出,本文提出的增广算法在
各项指标上均表现优异:精确率、召回率分别达到 参 考 文 献
88.6%、88.4%,F1 值为 0.884,AUC值为 0.997,并且
计算耗时仅为 0.17 s。相比之下,传统的 SMOTE和 [1] Mendoza E, Carballo G. Vocal tremor and psychological
ADASYN算法虽然提升了分类性能,但整体效果略 stress[J]. Journal of Voice, 1999, 13(1): 105–112.
[2] World Health Organization. International agency
低于本文算法,尤其是 ADASYN 算法的计算耗时
for research on cancer today [EB/OL]. [2020-03-20].
增至 0.31 s。Safe-Level-SMOTE、CP-SMOTE、文 https://www.who.int/cancer.
献 [33] 算法的分类效果均低于本文算法,且耗时更 [3] Bhattacharyya N. The prevalence of voice problems
among adults in the United States[J]. The Laryngoscope,
长。此外,IO-SMOTE 在分类性能方面表现较差,
2014, 124(10): 2359–2362.
F1 值仅为 0.709,AUC 为 0.899,说明其不适合当前 [4] American speech-language-hearing association. Voice dis-
数据集的增广需求。综上所述,本文提出的增广算 orders [EB/OL]. [2023-09-13]. https://www.asha.org/prac-
tice-portal/clinical-topics/voice-disorders/.
法在分类性能和计算效率之间达到了较好的平衡,
[5] Zhang T, Liu X N, Liu G J, et al. PVR-AFM: A patholog-
验证了其在本研究场景中的有效性。 ical voice repair system based on non-linear structure[J].
表 6 不同增广算法的分类性能比较 Journal of Voice, 2023, 37(5): 648–662.
[6] Hillenbrand J, Houde R A. Acoustic correlates of breathy
Table 6 The comparison of classification
vocal quality: Dysphonic voices and continuous speech[J].
performance across different augmenta-
Journal of Speech and Hearing Research, 1996, 39(2):
tion algorithms 311–321.
[7] Castellana A, Carullo A, Corbellini S, et al. Discrimi-
增广算法 P R F1 AUC 耗时/s
nating pathological voice from healthy voice using cep-
本文 0.886 0.884 0.884 0.997 0.17 stral peak prominence smoothed distribution in sustained
SMOTE [28−29] 0.847 0.847 0.845 0.968 0.17 vowel[J]. IEEE Transactions on Instrumentation and Mea-
ADASYN [30] 0.864 0.863 0.863 0.971 0.31 surement, 2018, 67(3): 646–654.
Safe-Level-SMOTE [31] 0.872 0.871 0.871 0.976 0.31 [8] Kabache M, Guerti M. Multi parametric method for
CP-SMOTE [32] 0.883 0.883 0.883 0.982 0.29 the objective acoustic evaluation of the voice produced
IO-SMOTE [32] 0.709 0.715 0.709 0.899 0.18 by Laryngectomy patients[J]. Instrumentation, Mesures,
文献 [33] 0.824 0.823 0.818 0.956 0.24 Métrologies, 2021, 20(3): 137.
[9] Vashkevich M, Rushkevich Y. Classification of ALS pa-
3 结论 tients based on acoustic analysis of sustained vowel phona-
tions[J]. Biomedical Signal Processing and Control, 2021,
65: 102350.
本文构建了一种基于数据增强和复杂特征优
[10] Dibazar A A, Narayanan S, Berger T W. Feature anal-
化的类不平衡病理嗓音检测系统。首先,针对MEEI ysis for automatic detection of pathological speech[C]//