Page 93 - 《应用声学》2020年第3期
P. 93
第 39 卷 第 3 期 曾宇等: 贝叶斯优化卷积神经网络公共场所异常声识别 413
θ l+1 = θ l − rLearn ∗ ∇E R (θ l ) 式 (16) 中,r 为 x 和 x 的欧拉距离,σ f 为特征偏差,
′
σ l 为特征长度,σ f 和σ l 会随着高斯过程拟合而自动
+ momD ∗ (θ l − θ l−1 ),
1 T 变化,σ l 的初值为 x i 的标准差,σ f 的初值为 y i 的标
E R (θ l ) = E(θ l ) + ∗ L2Reg ∗ W W , (13) √
2 准差除以 2。常用的采集函数生成策略包括基于
式 (13) 中,l 为迭代数,θ 为调整的向量,W 为权值 提升概率的策略、基于提升概率和提升量的策略、
向量,r Learn 为学习率,mom D 为随机梯度下降动 置信边界策略、基于信息的策略等,基于提升概率
量,L2Reg为L2正则化强度,E(θ)为损失函数。 和提升量的策略构造的采集函数如下:
本 文 选 取 4 个 网 络 结 构 参 数 NC、 dim W、
α t (x; D 1:t ) =
dim P、 r Drop 和 3 个 网 络 训 练 参 数 r Learn、
( v − µ t (x) )
∗
mom D、L2Reg作为卷积神经网络的设计变量。 (v − µ t (x))ϕ
∗
σ t (x)
2.2 贝叶斯优化卷积神经网络 ( v − µ t (x) )
∗
+ σ t (x)ϕ , σ t (x) > 0, (17)
贝叶斯优化是一种全局优化算法,通过设计恰 σ t (x)
当的概率代理模型和采集函数,贝叶斯优化框架只
0, σ t (x) = 0,
需经过少数次目标函数评估即可获得理想解,非常
式(17)中,α t (x; D 1:t )为采集函数,v 为当前最优函
∗
适用于求解目标函数表达式未知、非凸、多峰和评
数值,ϕ(x) 为标准正态分布累积密度函数,µ t (x) 和
估代价高昂的复杂优化问题 [19−20] 。
σ t (x)分别为均值和标准差。
贝叶斯优化算法以贝叶斯定理为理论基础,该
本文基于贝叶斯优化算法对卷积神经网络模
定理表示为
型的 7 个设计变量进行优化,概率代理模型选用高
p(D 1:t |f)p(f)
p(f|D 1:t ) = , (14)
p(D 1:t ) 斯过程模型,采集函数通过基于提升概率和提升量
式 (14) 中,f 为未知的目标函数或参数模型中的参 的策略构造,优化变量的约束条件如表1所示。
数,D 1:t = {(x 1 , y 1 ), (x 2 , y 2 ), · · · , (x t , y t )}为已评估
表 1 优化变量的约束条件
点集合,x t 为决策向量,y t = f(x t ) + ε 为观测值,
Table 1 Constraints on optimizing variables
ε 为观测误差,p(D 1:t |f) 为 y 的似然分布,p(D 1:t )
为边际化 f 的边际似然分布,p(f) 为 f 的先验概率, 优化变量 变量标识 变量数据类型 取值范围
p(f|D 1:t ) 为f 的后验概率,后验概率分布是通过已 卷积核数量 NC 整数 4,8,12,16
评估点集合对先验进行修正后未知目标函数或参 卷积核维度 dim W 整数 2,3,4
数模型中的参数的置信度。贝叶斯优化算法使用概 池化窗口维度 dim P 整数 2,3,4
率代理模型拟合真实的目标函数,根据采集函数选 丢弃层丢弃率 r Drop 浮点数 [0.1,0.3]
择下一个评估点。常用的概率代理模型包括贝塔- 学习率 r Learn 浮点数 [0.001,0.1]
伯努利模型、线性模型、高斯过程、随机森林等,其中 随机梯度下降动量 mom D 浮点数 [0.8,0.95]
高斯过程具有高度的灵活性、可扩展性和可分析性, L2 正则化强度 L2Reg 浮点数 [10 −10 , 10 −2 ]
是贝叶斯优化中应用最广泛的概率代理模型。高斯
过程是多元高斯概率分布的范化,由均值函数和半 3 公共场所异常声识别结果与比较
正定的协方差函数构成,即:
本文所用的异常声来源于 Freesound 网站,包
′
y = gp(m(x), k(x, x )), (15)
括火苗噼啪声、玻璃破碎声、婴儿啼哭声、烟花燃
式 (15) 中,m(x) 为均值函数,k(x, x ) 为协方差函 放声和警报声,声音文件的样本数为 1000 个,其中
′
数。采用高斯过程对一系列离散数据对(x i , y i )进行 每类声音文件的样本数均为 200,声音文件长度均
函数拟合时,m(x) 通常设置为 0,k(x, x ) 通常采用 为 5 s,采样频率均为 44.1 kHz。为了比较不同特
′
Matern协方差函数,即: 征提取和分类器方案的识别效果,选取 Mel 倒谱系
√ r
2
[ ( ) ] 数 (MFCC)、Mel 倒谱系数 +Gammatone 倒谱系数
√ r 5 r − 5
′
k(x, x )=σ 2 1 + 5 + e σ l , (16)
f (MFCC+GTCC) 作为特征提取的比较对象,选取
σ l 3 σ l