Page 242 - 《应用声学》2025年第1期
P. 242

238                                                                                  2025 年 1 月


             1.3 多特征融合优化                                                     表 2  ECFS 算法流程
                                                                Table 2 The workflow of the ECFS algorithm
                 本文深入探讨了 32 个声学特征对 4 类病理嗓
             音分类性能的影响。为了在保持较低计算复杂度的                                 ECFS 算法
             同时实现高效的特征选择,本文采用了 ECFS 算法                              输入: 语声特征集 F, 类别标签 C.
             与盒图相结合的方法,旨在优化复杂特征的融合处                                 输出: 最优特征子集 S   ∗
             理过程。                                                   1: {步骤 1. 初始化: };
                                                                                 ∗
                                                                    2: 最优特征子集 S ← ∅
             1.3.1 ECFS评价
                                                                    3: 最佳得分 best_score ← −∞
                 ECFS 是一种基于相关性的特征选择方法,它                             4: 待处理队列; Q ← {S|f j , f j ∈ F};
             采用 Best-first 最佳优先搜索策略进行高效特征选                           5: 已处理子集集合 processed ← ∅
                                                                    6: {步骤 2. 处理特征子集: };
             择。该方法侧重于选择与目标类别高度相关的特
                                                                    7: While Q ̸= ∅ do:
             征,同时最小化特征间相关性,从而提高模型的泛
                                                                    8:  从 Q 中提取一个特征子集 S;
             化能力。Best-first最佳优先搜索是一种基于图的方                            9:  If S ∈ processed then
             法,优先扩展最接近目标解的节点,并使用启发式方                                10:   Goto: 从 Q 中提取一个特征子集 S;
             法来提高搜索效率。ECFS 评估特征子集 S 的具体                             11: End if
                                                   ′
             计算方法如式(1)所示:                                           12: For 每个候选特征 f j ∈ F 且 f j /∈ S do:
                                                                                        ∪
                                                                    13:   生成新子集 S = S    {f j };
                                                                                    ′
                                          ′
                                      r c (S )
                                                                                                       ′
                            ′                           (1)         14:   根据公式 (1) 和公式 (2) 计算得分 score(S ).
                     score(S ) = √                ,
                                   1    ∑
                                                                    15:   If score(S ) > best_score then
                                                                                 ′
                                             r f i ,f j
                                    ′
                                  |S |                                                            ′
                                      f i ,f j ∈S ′                 16:    Update: best_score ← score(S );
                                                                    17:    S ← ∅;
                                                                            ∗
             式 (1) 中, |S | 表 示 特 征 子 集 S 中 特 征 的 数 量,
                                          ′
                         ′
                                                                    18:    将 S 添加到 S ;
                                                                                     ∗
                                                                              ′
             ∑
                           表示特征子集 S 中所有特征对之
                                          ′
                                                                                    ′
                      r f i ,f j                                    19:  Else if score(S ) = best_score then
                f i ,f j ∈S ′
                                  表示特征 f j 与 f i 之间的相               20:    将 S 添加到 S ;
                                                                              ′
                                                                                     ∗
             间的相关度之和,r f i ,f j
                                      ′
                      ′
             关度,r c (S ) 表示特征子集 S 中所有特征与类别 C                        21:  End if
             的平均相关度,计算方法如式(2)所示:                                    22:   标记 S 为已处理: processed ← S;
                                                                    23:   将 S 添加到 Q: Q ← S ;
                                                                             ′
                                                                                           ′
                                  1   ∑
                             ′
                         r c (S ) =       r f i ,c ,    (2)         24:  End for
                                   ′
                                 |S |
                                     f i ∈S ′                       25: End while
             式 (2) 中,r f i ,c 表示特征 f i 和类别 C 之间的相关度。                26: {步骤 3. 返回最优特征子集: };
                                                                               ∗
             变量X 和Y 之间的相关度计算如式(3)所示:                                27: Return S ;
                                  Cov(X, Y )
                           r X,Y =          ,           (3)    1.3.2 盒图分析
                                    σ X σ Y
             式 (3) 中,Cov(X, Y ) 是变量 X 和 Y 之间的协方差,                  盒图是一种有效的数据可视化工具,用于展示
             σ X 和σ Y 分别是变量X 和Y 的标准差。ECFS算法                    数据的分布特征,包括中位数、四分位数和异常值。
             流程如表 2 所示:首先,该算法将所有特征子集填                          在分析声学特征时,盒图的中间线表示中位数,盒
             充到优先级队列中;随后,在特征选择阶段,算法                            子的上下边界分别对应第一四分位数和第三四分
             会迭代地从队列中选取优先级最高的子集,并对其                            位数,从而反映特征值的集中趋势和离散程度。此
             进行性能评估;接着,算法通过向该子集中加入其                            外,盒外的点代表异常值,表征可能影响模型性能
             他候选特征,生成新的子集,每个新子集的贡献度                            的特殊情况。本文利用盒图直观展示了不同声学特
             均通过评分公式来评估,该公式综合考虑了特征与                            征的分布情况,并通过分析中位数、四分位数、异常
             目标类别的相关性以及特征间的相互相关性;最后,                           值等信息,评估了各声学特征在不同病理嗓音类型
             如果新子集的得分高于当前最优子集,则更新最优                            中的辨别能力,为后续特征融合优化提供了依据。
             子集及其得分。这种方法不仅确保了对特征子集                             图 4(a) 和图 4(b) 分别展示了 DSH 特征和 Fhi 特征
             的全面探索,还通过精简冗余评估过程来有效提升                            在4 种病理嗓音类型中的盒图分布。DSH特征表示
             计算效率。                                             信号中次谐波的程度,Fhi 特征表示发声中的最高
   237   238   239   240   241   242   243   244   245   246   247