Page 243 - 《应用声学》2025年第1期
P. 243

第 44 卷 第 1 期          武雅琴等: 数据增强和复杂特征优化的类不平衡病理嗓音检测                                          239


             基频。DSH 特征在声带小结、声带息肉和声带水肿                          算法从 32 种声学特征中筛选出 12 个与病理嗓音类
             上几乎重叠,表现出较大的数据集中性和有限的区                            别分类高度相关的特征。接着,本文通过盒图进一
             分能力,声带麻痹的分布较为分散,显示出一定差                            步分析各声学特征对 4 种病理嗓音的区分效果,如
             异。Fhi 特征在不同类型嗓音间有较大的四分位间                          图 5所示,最终筛选出To、Fatr、Jita、sAPQ、vAm和
             距,且异常值较为分散,说明其在不同病理类型间的                           NHR 这 6 个特征,构建融合优化特征集。其中,To
             区分效果较好。因此,Fhi特征在分类能力上显著优                          表示平均声门周期,Fatr 表示低频振幅调制分量最
             于DSH特征。                                           强的频率,Jita 表示绝对抖动,sAPQ 表示平滑后的
                                                               振幅扰动商,vAm 表示峰值幅度变化,NHR 表示噪
                 1.0
                                                               声谐波比。
                 0.8
                                                                             表 3  嗓音类型及数量
                 0.6                                              Table 3 The types and counts for patho-
                                                                  logical voices
                 0.4
                                                                         嗓音类型                数据个数
                 0.2
                                                                         声带小结                  19
                   0
                                                                         声带息肉                  19
                      ܦࣜ࠵ፇ    ܦࣜৌᐛ    ܦࣜඵᐹ     ܦ᳤ࣜკ
                                                                         声带水肿                  44
                                 (a) DSHྲढ़
                                                                         声带麻痹                  60
                 1.0
                                                                   图 5 表明,To 特征在麻痹类型的四分位范围呈
                 0.8
                                                               独特的分布形态,说明To在区分麻痹时具备一定的
                 0.6                                           分类优势;Fatr 特征在水肿和麻痹之间有明显中位
                                                               数差异,且四分位范围差异明显,相比小结和水肿,
                 0.4
                                                               麻痹的异常值较多。Jita 特征具有较小的跨类别重
                 0.2
                                                               叠,小结与其他病理类型的分布明显分离,数据分布
                                                               较为分散,具有较强的区分性能。sAPQ特征在水肿
                   0
                      ܦࣜ࠵ፇ    ܦࣜৌᐛ    ܦࣜඵᐹ    ܦ᳤ࣜკ             和麻痹的异常值分布较多且呈明显差异,同时在小
                                 (b) Fhiྲढ़                     结和息肉类型中的中位数也表现出较大差异。vAm
                        图 4  DSH 和 Fhi 特征的盒图                   特征显示声带小结和声带息肉的中位数有明显差
                 Fig. 4 Box plots of the DSH and Fhi features  异,且异常值极少,显示出良好的区分效果。NHR
                                                               特征在小结和水肿、麻痹的分布差异显著,尤其是水
             2 实验                                              肿和麻痹分布范围较窄,并且存在多个异常值。另
                                                               外,部分特征盒图中出现较多异常值,这些异常值
             2.1 数据库
                                                               受个体发音差异和发声条件的影响,能侧面反映不
                 本文采用美国 KAY 公司的麻省眼耳科医院
                                                               同病理嗓音类型的复杂性,为探索特征与病理类型
             MEEI 数据库,该数据库涵盖了 1384 个语声样本,
                                                               之间的关系提供了更多线索。图6 为融合优化特征
             每个语声样本持续1∼3 s,采样率设为 50 kHz,位深
                                                               集在 4 种病理嗓音中的样本分布图,横坐标表示特
             为 16 位。本研究选择声带小结、息肉、水肿、麻痹 4
                                                               征值数据,纵坐标表示病理嗓音类型。通过图 6 得
             种嗓音进行实验,具体信息如表3所示。
                                                               出:融合优化特征集在四类病理嗓音的数据分布呈
             2.2 实验设计及可视化                                      现出明显的分布模式或集中趋势,不同类别的特征
                 实验参数配置如下:首先,数据增广数设为300,                       异常值分布也存在明显差异,进一步补充和印证了
             本文通过计算种子样本与其他非种子样本的欧几                             本文提出的融合优化特征集的优势及有效性。综上
             里得距离,选择出与种子样本最近邻的 10 个特征                          所述,Jita、vAm、NHR、To、Fatr 和 sAPQ 特征相互
             样本。随后,基于增广后的数据,本文采用 ECFS                          补充,显著提升了对4种病理嗓音类型的分类效果。
   238   239   240   241   242   243   244   245   246   247   248