Page 128 - 《应用声学》2021年第1期
P. 128

124                                                                                  2021 年 1 月


             a k (t m ) 最大的 k(t m ) 的值。以上参数被证实对声信              式 (8) 中,|S| 为集合 S 中所选特征的数量。利用
             号的特征识别具有重要作用             [15] ,被试信号对于它们           最小冗余标准式剔除特征子集 S 中的冗余特征的
             的变化具有较高的敏感度。                                      集合R:
                                                                                     1   ∑
                                                                     min R, R(S) =            I (f i , f j ).  (9)
                          表 2   时频联合域特征                                             |S| 2
                                                                                        f i ,f j ∈S
                Table 2 Temporal-frequency features
                                                                   综合以上条件,mRMR方法计算式为
              声学参数 符号                   定义                                 max θ(D, R) = D − R.          (10)
               谱质心    SC  频谱一阶统计特性,反映声音明亮度
                                                                   给定具有N − 1个特征的集合S N−1 ,总特征集
               谱延展    SSP 频谱二阶统计特性,反映频谱围绕均值的变化                 合为 F,计算集合 {F − S N−1 } 中选择第 N 个特征
                          程度
                                                               使得式(10)中的集合θ(D, R)最大:
               谱偏度    SSK 频谱三阶统计特性,反映频谱在其均值附近分
                          布的不对称程度                               mRMR =
               谱峰度    SK  频谱四阶统计特性,反映频谱在平均频率附近                             (            ∑     I(f i , f j )  )
                                                                    max                                . (11)
                          的平坦程度                                             I(f j , O) −
                                                                 f j ∈F−S N−1                  N − 1
               谱斜率    SSL 由线性回归方法描述的频谱幅度的下降斜率                                         f i ∈S N−1
                                                                   利用 mRMR 准则对特征空间进行预处理,可
               谱衰减    SD  频谱下降时一组斜率的平均值
                                                               以剔除冗余特征,降低计算代价,产生紧凑性和泛化
               谱滚降    SR  下降至频谱总能量 95% 时对应的截止频率
                                                               能力更强的模型。算法流程如下:
               谱通量    SV  描述声信号频谱包络面积的物理量
                                                                   (1) 选 择 令 相 关 性 最 大 的 特 征 f n , 即
              谱平坦度    SF  频谱几何平均值和算术平均值的比值
                                                                     I(f n , O),将所选特性特征添加到空集合
                                                               max f n
               谱波峰   SCR 频谱的最大值和算术平均值的比值
                                                               S中。
                                                                   (2) 在集合 S 的补集中找出具有非零相关性和
             1.2 基于mRMR准则的特征选择                                 零冗余的特征,如不包含,则转步骤 (4);否则,选
                 以上声学参数作为水声信号的输入特征并不                           出相关性最大的特征f k ,即              max      I(f k , O),
                                                                                            C
                                                                                        f k ∈S ,R(f k )=0
             具有鲁棒性,不同任务 (如测距、识别) 的训练集拥                         将选中的特征添加到集合S中。
             有不同的最佳声学参数。在1.1 节中给出的特征中,                             (3) 重复步骤 (2),直到 S 的补集中所有特征的
             有些特征可能是冗余的甚至是不相关的,导致机器                            冗余不为零为止。
             学习算法的效率降低、性能损失。                                       (4) 选 择 S 的 补 集 中 互 信 息 熵 最 大 且 具
                 最大相关 -最小冗余准则 (mRMR) 是一种综                      有 非 零 相 关 性 和 非 零 冗 余 的 特 征 f l ,           即
             合考虑特征相关度和冗余度的特征重要性评价准                              max I(f l , O)/R(f l ),将选择的特征加入集合 S
                                                               f l ∈S C
             则  [16] 。定义互信息I(A, B):                            中。
                        ∫          (          )
                                      p(A, B)                      (5) 重复步骤 (4),直到 S 的补集中所有特征的
              I(A, B) =   p(A, B) lg            dAdB, (7)
                                     p(A)p(B)                  相关性为零。
             其中,变量 A 和 B 的概率密度分别是 p(A) 和 p(B),                     (6) 最后以随机顺序添加与S无关的特征。
             其联合概率密度是 p(A,B)。设样本数量为 m,特                        1.3  改进的深度神经网络模型
             征向量数量为 n,特征向量 f i = [f (i,1) , f (i,2) , · · · ,
                                                               1.3.1 传统前馈深度神经网络
                  T
             f (i,m) ] ,I(f i , f j )为样本中第i个和第j 个特征的相
                                                                   传统的前馈深度神经网络 (Feedforward deep
             关性,其中 i, j = 1, 2, 3, · · · , n。设 O m 为类别标签,
                                                               neural network, FF-DNN) 根据内部的神经网络层
             I(f i , O) 为特征与输出类别 O 的相关性,其中向量
                                                               可以分为输入层(输入声信号特征的层)、隐含层(所
             O = [O 1 , O 2 , O 3 , · · · , O m ] 。利用最大相关标准式
                                    T
                                                               有中间层) 和输出层 (输出目标距离估计值的层)。
             选择出与类别O 相关性大的特征集合D:
                                                               单层网络直接相互级联,某一层的任意一个神经元
                                     1  ∑
                   max D, D(S, O) =         I(f i , O),  (8)   与其上一层的每一个神经元相连。其局部模型可描
                                     |S|
                                        f i ∈S                 述为是一个线性运算加上一个非线性转移函数。
   123   124   125   126   127   128   129   130   131   132   133