Page 45 - 201901
P. 45
第 38 卷 第 1 期 阴法明等: 连续音素的改进深信度网络的识别算法 41
∏
p(h|v) = p(h j |v),给定一个可见矢量 v,隐层单 通过将式 (1) 的 RBM 参数 θ RBM = {W, a, b}
j
元h j 的状态为1的概率为 中 的 显 层 单 元 与 隐 层 单 元 之 间 的 连 接 权 重 W
乘以温度 β,整个模型的参数变为 θ RBM−PT =
( )
∑
p (h j = 1|v) = logistic b j + v i w ij . (6) {βW, a, b},对于偏置值 a 和 b 并没有改变。此时,
i
并行回火算法可与受限波尔兹曼机结合,改善训练
同理可得给定一个隐层矢量 h,可见单元 v i 的状态
效率。公式 (8) 中的参数 t 指“温度”,该参数反映了
为1的概率为
基于能量模型的统计物理起源。当温度趋于 0 时,
1/t 则趋于无穷,此时的基于能量的模型是确定性
∑
p (v i = 1|h) = logistic a i + h j w ij . (7)
的。反之,基于能量的模型成了均匀分布。
j
并行回火蒙特卡罗算法包括两个阶段:
的获得是很困难的。传
无偏样本 ⟨v i h j ⟩
model (1) Metropolis-Hastings 采样 [13] 阶段:根据已
统 算 法 采 用 对 比 散 度 来 近 似 计 算 该 模 型 的 期
有的采样值计算当前温度的下一个采样点,基本采
望,步骤总结如下:(1) 初始化可见矢量 v 0 ;(2)
样计算公式为
采样 h 0 : p(h|v 0 );(3) 采样 v 1 : p(v|h 0 );(4) 采样
i
h 1 : p(h|v 1 );如此交替进行采样来训练RBM。由此 x i+1 |x = Metropolis
可知,该算法的复杂度是指数级增加的。 ( ( σ 2 ))
i
− Hastings x + N 0, i , (9)
为解决 RBM 的训练效率问题,目前提出了 t k
对比散度 (CD)、持续对比散度 (PCD) 和并行回火 ( σ 2 ) σ 2
其中,N 0, i 是均值为 0、方差为 i 的正态分
(PT) 等方法 [10] 。对比散度是训练 RBM 的标准方 t k t k
法,它通过训练数据来初始化吉布斯链,然后交替执 布,t k 表示温度,x 表示第 i 条链的显层与隐层
i
行 CD-1 算法,所以实际上它并没有依据模型分布 状态。
来计算对数概率的梯度 [7] 。持续对比散度是通过对 (2) 交换:并行回火RBM模型的交换条件如下:
一条持续马尔科夫链进行吉布斯采样来计算模型 { ( ( 1 1 ) (
min 1, exp − ∗ E(v γ , h γ )
梯度,其初始吉布斯的状态来源于前一次的更新参 t γ t γ−1
数,而不是训练数据 [8] 。这两种方法都仅使用单一 ) ) }
− E(v γ−1 , h γ−1 ) , (10)
的马尔科夫链来计算 ⟨v i h j ⟩ model ,这会引起训练退
化。尤其是对含有多个峰值的目标分布,这种使用 其中,t γ 与 t γ−1 是两个相邻的温度,E(v γ , h γ ) 与
对比散度或持续对比散度的吉布斯采样会容易陷 E(v γ−1 , h γ−1 ) 是其对应的隐层期望。如果满足该
入局部最优。 条件,就把相邻的温度链下的采样点交换,否则不交
“回火” 作为一种通用策略,它通过从 1/t < 1 换。为了提高这种交换率,本文提出了如下改进方
的模型中采样来实现不同峰值之间的快速混合。本 法:由公式 (10) 可得,当温度固定时,交换率取决于
文使用并行回火采样对 RBM 训练 (RBM-PT),并 两个状态能量之差,且差值越小交换的可能就越大。
行回火引入了增补吉布斯链,它能够从渐进平滑的 本文根据所有链的状态能量,将状态空间分为几个
原始分布中采样 [11−12] 。RBM-PT 在训练过程中, 等能量集合,促使当前状态向等能量集中的其他状
每个温度对应一条吉布斯链并使用并行回火的方 态转移。具体算法如下:
法采样。每条吉布斯链对应一个不同的温度t i ,t i 满 首先引入d + 1个能量水平:
足 1 = t 1 < · · · < t i < · · · t M−1 < t M ,不同温度链
H 1 < H 2 < · · · < H d+1 = ∞, (11)
之间根据一定的条件决定是否交换采样值。
根据式 (2),在不同的温度下,并行回火 RBM 理论上 H 1 应小于最小能量,但在本文中 H 1 被设为
联合概率为 最小能量,而H d 等于最大能量值。因为这样也能包
( )
1 1 含模型中的所有状态能量。H 2 , · · ·, H d−1 通过均分
p(v, h) = exp − E (v, h; θ) ,
Z(t i ) t i (H d − H 1 )获得。
i = 1, 2, · · · , M. (8) 其次根据这d+1个能量水平,要将N 个马尔可