Page 243 - 《应用声学》2025年第1期

P. 243

第 44 卷第 1 期武雅琴等：数据增强和复杂特征优化的类不平衡病理嗓音检测 239

基频。DSH 特征在声带小结、声带息肉和声带水肿算法从 32 种声学特征中筛选出 12 个与病理嗓音类
上几乎重叠，表现出较大的数据集中性和有限的区别分类高度相关的特征。接着，本文通过盒图进一
分能力，声带麻痹的分布较为分散，显示出一定差步分析各声学特征对 4 种病理嗓音的区分效果，如
异。Fhi 特征在不同类型嗓音间有较大的四分位间图 5所示，最终筛选出To、Fatr、Jita、sAPQ、vAm和
距，且异常值较为分散，说明其在不同病理类型间的 NHR 这 6 个特征，构建融合优化特征集。其中，To
区分效果较好。因此，Fhi特征在分类能力上显著优表示平均声门周期，Fatr 表示低频振幅调制分量最
于DSH特征。强的频率，Jita 表示绝对抖动，sAPQ 表示平滑后的
振幅扰动商，vAm 表示峰值幅度变化，NHR 表示噪
1.0
声谐波比。
0.8
表 3 嗓音类型及数量
0.6 Table 3 The types and counts for patho-
logical voices
0.4
嗓音类型数据个数
0.2
声带小结 19
0
声带息肉 19
ܦࣜ࠵ፇ ܦࣜৌᐛ ܦࣜඵᐹ ܦ᳤ࣜკ
声带水肿 44
(a) DSHྲढ़
声带麻痹 60
1.0
图 5 表明，To 特征在麻痹类型的四分位范围呈
0.8
独特的分布形态，说明To在区分麻痹时具备一定的
0.6 分类优势；Fatr 特征在水肿和麻痹之间有明显中位
数差异，且四分位范围差异明显，相比小结和水肿，
0.4
麻痹的异常值较多。Jita 特征具有较小的跨类别重
0.2
叠，小结与其他病理类型的分布明显分离，数据分布
较为分散，具有较强的区分性能。sAPQ特征在水肿
0
ܦࣜ࠵ፇ ܦࣜৌᐛ ܦࣜඵᐹ ܦ᳤ࣜკ 和麻痹的异常值分布较多且呈明显差异，同时在小
(b) Fhiྲढ़ 结和息肉类型中的中位数也表现出较大差异。vAm
图 4 DSH 和 Fhi 特征的盒图特征显示声带小结和声带息肉的中位数有明显差
Fig. 4 Box plots of the DSH and Fhi features 异，且异常值极少，显示出良好的区分效果。NHR
特征在小结和水肿、麻痹的分布差异显著，尤其是水
2 实验肿和麻痹分布范围较窄，并且存在多个异常值。另
外，部分特征盒图中出现较多异常值，这些异常值
2.1 数据库
受个体发音差异和发声条件的影响，能侧面反映不
本文采用美国 KAY 公司的麻省眼耳科医院
同病理嗓音类型的复杂性，为探索特征与病理类型
MEEI 数据库，该数据库涵盖了 1384 个语声样本，
之间的关系提供了更多线索。图6 为融合优化特征
每个语声样本持续1∼3 s，采样率设为 50 kHz，位深
集在 4 种病理嗓音中的样本分布图，横坐标表示特
为 16 位。本研究选择声带小结、息肉、水肿、麻痹 4
征值数据，纵坐标表示病理嗓音类型。通过图 6 得
种嗓音进行实验，具体信息如表3所示。
出：融合优化特征集在四类病理嗓音的数据分布呈
2.2 实验设计及可视化现出明显的分布模式或集中趋势，不同类别的特征
实验参数配置如下：首先，数据增广数设为300，异常值分布也存在明显差异，进一步补充和印证了
本文通过计算种子样本与其他非种子样本的欧几本文提出的融合优化特征集的优势及有效性。综上
里得距离，选择出与种子样本最近邻的 10 个特征所述，Jita、vAm、NHR、To、Fatr 和 sAPQ 特征相互
样本。随后，基于增广后的数据，本文采用 ECFS 补充，显著提升了对4种病理嗓音类型的分类效果。

238 239 240 241 242 243 244 245 246 247 248