Page 243 - 《应用声学》2025年第1期
P. 243
第 44 卷 第 1 期 武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测 239
基频。DSH 特征在声带小结、声带息肉和声带水肿 算法从 32 种声学特征中筛选出 12 个与病理嗓音类
上几乎重叠,表现出较大的数据集中性和有限的区 别分类高度相关的特征。接着,本文通过盒图进一
分能力,声带麻痹的分布较为分散,显示出一定差 步分析各声学特征对 4 种病理嗓音的区分效果,如
异。Fhi 特征在不同类型嗓音间有较大的四分位间 图 5所示,最终筛选出To、Fatr、Jita、sAPQ、vAm和
距,且异常值较为分散,说明其在不同病理类型间的 NHR 这 6 个特征,构建融合优化特征集。其中,To
区分效果较好。因此,Fhi特征在分类能力上显著优 表示平均声门周期,Fatr 表示低频振幅调制分量最
于DSH特征。 强的频率,Jita 表示绝对抖动,sAPQ 表示平滑后的
振幅扰动商,vAm 表示峰值幅度变化,NHR 表示噪
1.0
声谐波比。
0.8
表 3 嗓音类型及数量
0.6 Table 3 The types and counts for patho-
logical voices
0.4
嗓音类型 数据个数
0.2
声带小结 19
0
声带息肉 19
ܦࣜ࠵ፇ ܦࣜৌᐛ ܦࣜඵᐹ ܦ᳤ࣜკ
声带水肿 44
(a) DSHྲढ़
声带麻痹 60
1.0
图 5 表明,To 特征在麻痹类型的四分位范围呈
0.8
独特的分布形态,说明To在区分麻痹时具备一定的
0.6 分类优势;Fatr 特征在水肿和麻痹之间有明显中位
数差异,且四分位范围差异明显,相比小结和水肿,
0.4
麻痹的异常值较多。Jita 特征具有较小的跨类别重
0.2
叠,小结与其他病理类型的分布明显分离,数据分布
较为分散,具有较强的区分性能。sAPQ特征在水肿
0
ܦࣜ࠵ፇ ܦࣜৌᐛ ܦࣜඵᐹ ܦ᳤ࣜკ 和麻痹的异常值分布较多且呈明显差异,同时在小
(b) Fhiྲढ़ 结和息肉类型中的中位数也表现出较大差异。vAm
图 4 DSH 和 Fhi 特征的盒图 特征显示声带小结和声带息肉的中位数有明显差
Fig. 4 Box plots of the DSH and Fhi features 异,且异常值极少,显示出良好的区分效果。NHR
特征在小结和水肿、麻痹的分布差异显著,尤其是水
2 实验 肿和麻痹分布范围较窄,并且存在多个异常值。另
外,部分特征盒图中出现较多异常值,这些异常值
2.1 数据库
受个体发音差异和发声条件的影响,能侧面反映不
本文采用美国 KAY 公司的麻省眼耳科医院
同病理嗓音类型的复杂性,为探索特征与病理类型
MEEI 数据库,该数据库涵盖了 1384 个语声样本,
之间的关系提供了更多线索。图6 为融合优化特征
每个语声样本持续1∼3 s,采样率设为 50 kHz,位深
集在 4 种病理嗓音中的样本分布图,横坐标表示特
为 16 位。本研究选择声带小结、息肉、水肿、麻痹 4
征值数据,纵坐标表示病理嗓音类型。通过图 6 得
种嗓音进行实验,具体信息如表3所示。
出:融合优化特征集在四类病理嗓音的数据分布呈
2.2 实验设计及可视化 现出明显的分布模式或集中趋势,不同类别的特征
实验参数配置如下:首先,数据增广数设为300, 异常值分布也存在明显差异,进一步补充和印证了
本文通过计算种子样本与其他非种子样本的欧几 本文提出的融合优化特征集的优势及有效性。综上
里得距离,选择出与种子样本最近邻的 10 个特征 所述,Jita、vAm、NHR、To、Fatr 和 sAPQ 特征相互
样本。随后,基于增广后的数据,本文采用 ECFS 补充,显著提升了对4种病理嗓音类型的分类效果。