Page 44 - 201901
P. 44
40 2019 年 1 月
识别率明显高于对比散度类算法。
0 引言
1 受限玻尔兹曼机
音素识别指的是对给定的语音特征向量,估
计语音标签序列的过程,在诸多语音识别系统中 受限玻尔兹曼机 (RBM) 是一种特殊的马尔科
具有广泛的应用 [1−2] ,如关键字识别、语言分类、 夫随机域,一个 RBM 包含一个由随机的隐层单元
说话人识别等。有效的音素识别是提高语音识别 构成的隐层和一个由随机的可见单元构成的显层,
的关键。 其中隐层一般为伯努利分布,显层一般是高斯分布
目前语音识别系统常用隐马尔科夫模型 (Hid- 或伯努利分布 [9] 。RBM 可以表示成双向图,只有不
den Markov models, HMM) 来处理语音中的时域 同层之间的单元才会存在边,同层单元之间都不会
变量,用高斯混合模型 (Gaussian mixture models, 有边连接,即层间全连接,层内无连接。
GMM) 来确定每一个 HMM 状态是如何对应于一 RBM是一种基于能量的模型,其可见矢量v 和
帧输入语音参数 [3] 。但是这种方法还存在一些缺 隐层矢量h的联合配置能量由公式(1)给出。
点:在模拟数据空间中非线性样本时,其统计无 ∑ ∑
E (v, h) = − a i v i − b j h j
效。例如对球面上的点集进行建模时,GMM 就 i∈visible j∈hidden
需要使用大量的对角高斯或协方差高斯 [4] 。此外 ∑
− v i h j w ij , (1)
这种方法的语音是通过调制动态系统中相对较 i,j
少的参数产生的,这意味着它真实的底层结构 其中,v i 是可见单元的二值状态,h j 是隐层单元的
是用了一组低维数据来表示一帧包含了上百参 二值状态,a i 和 b j 分别是可见单元 i 和隐层单元 j
数的语音。所以如果能充分挖掘帧中的信息,就 的偏置值,w ij 是链接权值。通过E 可以定义可见单
有可能找到一种比 GMM 更好的方法来进行语音 元和隐层单元状态的联合分布概率:
建模。 1
p (v, h; w) = e −E(v,h;w) , (2)
为克服上述缺点,有学者提出将深度神经网 Z
∑ ′ ′
络应用于声学建模中,用深信度网络 (Deep belief 其中Z 是配分函数或归一化项,Z = e −E(v ,h ;w) 。
network, DBN)/隐马尔科夫模型 (DBN/HMM) 结 v ,h ′
′
模型中可见矢量v 的概率计算公式如下:
构来提高最终的识别率 [5−6] 。Google 与 YouTube
1 ∑ −E(v,h;w)
的相关实验也表明 DBN/HMM 在语音识别效果上 p(v) = e . (3)
Z
[4]
要远远优于传统的 GMM/HMM 。而 DBN 是通 h
因为 RBM 层内无连接,所以隐层单元之间是
过将多个受限玻尔兹曼机 (Restricted Boltzmann
独立的,所以可见矢量 v 的概率是对隐层单元的求
machine, RBM) 堆叠而成,所以 RBM 的训练成为
和。RBM中的权值更新算法依据梯度下降法 [7] :
整个结构的关键。Hinton [7] 在 2010 年提出了对比
n=N n
散度(Contrastive divergence, CD)用来训练RBM, 1 ∑ ∂ lg p (v )
= ⟨v i h j ⟩ data − ⟨v i h j ⟩ model , (4)
之后又出现了持续对比散度(Persistent contrastive N n=1 ∂w ij
divergence, PCD) 。但是这两种方法都是对单条
[8]
式 (4) 表示由输入数据所确定的期望 ⟨v i h j ⟩ data 与
马尔可夫链进行采样,且在初始化数据上也较为粗
模型获取的期望 ⟨v i h j ⟩ model 之间的差异。最终,可
糙,导致其在计算模型期望时存在较大误差。 以得到RBM 的权值每次更新的大小为
为此本文在并行回火(Parallel tempering, PT) ( )
∆w ij = ϵ ⟨v i h j ⟩ data − ⟨v i h j ⟩ . (5)
算法的基础上,根据来自多条吉布斯链样本的状 model
态能量,进行等能量划分,构建多个能量环,提高
2 改进的RBM的训练算法
相邻温度链之间的交换率,进而优化 RBM 的训练,
并将训练好的RBM堆叠成DBN进行音素识别。在 对于 RBM 而言,由于隐层单元之间没有连接,
TIMIT语料库上,由改进的并行回火算法所获得的 无偏样本⟨v i h j ⟩ data 是很容易得到的,而且条件分布