Page 93 - 《应用声学》2020年第3期
P. 93

第 39 卷 第 3 期             曾宇等: 贝叶斯优化卷积神经网络公共场所异常声识别                                          413


                  θ l+1 = θ l − rLearn ∗ ∇E R (θ l )           式 (16) 中,r 为 x 和 x 的欧拉距离,σ f 为特征偏差,
                                                                                  ′
                                                               σ l 为特征长度,σ f 和σ l 会随着高斯过程拟合而自动
                          + momD ∗ (θ l − θ l−1 ),
                                 1             T               变化,σ l 的初值为 x i 的标准差,σ f 的初值为 y i 的标
                E R (θ l ) = E(θ l ) +  ∗ L2Reg ∗ W W ,  (13)           √
                                 2                             准差除以 2。常用的采集函数生成策略包括基于
             式 (13) 中,l 为迭代数,θ 为调整的向量,W 为权值                    提升概率的策略、基于提升概率和提升量的策略、
             向量,r Learn 为学习率,mom D 为随机梯度下降动                    置信边界策略、基于信息的策略等,基于提升概率
             量,L2Reg为L2正则化强度,E(θ)为损失函数。                        和提升量的策略构造的采集函数如下:
                 本 文 选 取 4 个 网 络 结 构 参 数 NC、 dim W、
                                                                 α t (x; D 1:t ) =
             dim P、 r Drop 和 3 个 网 络 训 练 参 数 r Learn、
                                                                              (  v − µ t (x)  )
                                                                                  ∗
             mom D、L2Reg作为卷积神经网络的设计变量。                           (v − µ t (x))ϕ
                                                                     ∗
                                                                 
                                                                 
                                                                                  σ t (x)
                                                                 
                                                                 
             2.2 贝叶斯优化卷积神经网络                                                ( v − µ t (x)  )
                                                                                ∗
                                                                     + σ t (x)ϕ           ,   σ t (x) > 0, (17)
                 贝叶斯优化是一种全局优化算法,通过设计恰                                           σ t (x)
                                                                 
                                                                 
                                                                 
                                                                 
             当的概率代理模型和采集函数,贝叶斯优化框架只                              
                                                                 
                                                                   0,                         σ t (x) = 0,
             需经过少数次目标函数评估即可获得理想解,非常
                                                               式(17)中,α t (x; D 1:t )为采集函数,v 为当前最优函
                                                                                               ∗
             适用于求解目标函数表达式未知、非凸、多峰和评
                                                               数值,ϕ(x) 为标准正态分布累积密度函数,µ t (x) 和
             估代价高昂的复杂优化问题             [19−20] 。
                                                               σ t (x)分别为均值和标准差。
                 贝叶斯优化算法以贝叶斯定理为理论基础,该
                                                                   本文基于贝叶斯优化算法对卷积神经网络模
             定理表示为
                                                               型的 7 个设计变量进行优化,概率代理模型选用高
                                   p(D 1:t |f)p(f)
                       p(f|D 1:t ) =           ,       (14)
                                      p(D 1:t )                斯过程模型,采集函数通过基于提升概率和提升量
             式 (14) 中,f 为未知的目标函数或参数模型中的参                       的策略构造,优化变量的约束条件如表1所示。
             数,D 1:t = {(x 1 , y 1 ), (x 2 , y 2 ), · · · , (x t , y t )}为已评估
                                                                           表 1  优化变量的约束条件
             点集合,x t 为决策向量,y t = f(x t ) + ε 为观测值,
                                                                 Table 1 Constraints on optimizing variables
             ε 为观测误差,p(D 1:t |f) 为 y 的似然分布,p(D 1:t )
             为边际化 f 的边际似然分布,p(f) 为 f 的先验概率,                         优化变量       变量标识    变量数据类型       取值范围
             p(f|D 1:t ) 为f 的后验概率,后验概率分布是通过已                       卷积核数量         NC       整数       4,8,12,16
             评估点集合对先验进行修正后未知目标函数或参                                 卷积核维度       dim W      整数         2,3,4
             数模型中的参数的置信度。贝叶斯优化算法使用概                               池化窗口维度        dim P     整数         2,3,4
             率代理模型拟合真实的目标函数,根据采集函数选                               丢弃层丢弃率       r Drop    浮点数        [0.1,0.3]
             择下一个评估点。常用的概率代理模型包括贝塔-                                 学习率        r Learn   浮点数       [0.001,0.1]
             伯努利模型、线性模型、高斯过程、随机森林等,其中                           随机梯度下降动量       mom D     浮点数       [0.8,0.95]
             高斯过程具有高度的灵活性、可扩展性和可分析性,                              L2 正则化强度      L2Reg    浮点数      [10 −10 , 10 −2 ]
             是贝叶斯优化中应用最广泛的概率代理模型。高斯
             过程是多元高斯概率分布的范化,由均值函数和半                            3 公共场所异常声识别结果与比较
             正定的协方差函数构成,即:
                                                                   本文所用的异常声来源于 Freesound 网站,包
                                           ′
                         y = gp(m(x), k(x, x )),       (15)
                                                               括火苗噼啪声、玻璃破碎声、婴儿啼哭声、烟花燃
             式 (15) 中,m(x) 为均值函数,k(x, x ) 为协方差函                放声和警报声,声音文件的样本数为 1000 个,其中
                                              ′
             数。采用高斯过程对一系列离散数据对(x i , y i )进行                   每类声音文件的样本数均为 200,声音文件长度均
             函数拟合时,m(x) 通常设置为 0,k(x, x ) 通常采用                  为 5 s,采样频率均为 44.1 kHz。为了比较不同特
                                                ′
             Matern协方差函数,即:                                    征提取和分类器方案的识别效果,选取 Mel 倒谱系
                                                √ r
                                            2
                         [            (   ) ]                  数 (MFCC)、Mel 倒谱系数 +Gammatone 倒谱系数
                              √  r   5  r      − 5
                   ′
              k(x, x )=σ 2  1 +  5  +         e    σ l , (16)
                        f                                      (MFCC+GTCC) 作为特征提取的比较对象,选取
                                 σ l  3 σ l
   88   89   90   91   92   93   94   95   96   97   98