Page 44 - 201901
P. 44

40                                                                                   2019 年 1 月


                                                               识别率明显高于对比散度类算法。
             0 引言
                                                               1 受限玻尔兹曼机
                 音素识别指的是对给定的语音特征向量,估
             计语音标签序列的过程,在诸多语音识别系统中                                 受限玻尔兹曼机 (RBM) 是一种特殊的马尔科
             具有广泛的应用        [1−2] ,如关键字识别、语言分类、                夫随机域,一个 RBM 包含一个由随机的隐层单元
             说话人识别等。有效的音素识别是提高语音识别                             构成的隐层和一个由随机的可见单元构成的显层,
             的关键。                                              其中隐层一般为伯努利分布,显层一般是高斯分布

                 目前语音识别系统常用隐马尔科夫模型 (Hid-                       或伯努利分布       [9] 。RBM 可以表示成双向图,只有不
             den Markov models, HMM) 来处理语音中的时域                 同层之间的单元才会存在边,同层单元之间都不会
             变量,用高斯混合模型 (Gaussian mixture models,              有边连接,即层间全连接,层内无连接。
             GMM) 来确定每一个 HMM 状态是如何对应于一                             RBM是一种基于能量的模型,其可见矢量v 和
             帧输入语音参数        [3] 。但是这种方法还存在一些缺                  隐层矢量h的联合配置能量由公式(1)给出。
             点:在模拟数据空间中非线性样本时,其统计无                                                ∑            ∑
                                                                    E (v, h) = −       a i v i −    b j h j
             效。例如对球面上的点集进行建模时,GMM 就                                             i∈visible    j∈hidden
             需要使用大量的对角高斯或协方差高斯                    [4] 。此外                       ∑
                                                                              −     v i h j w ij ,        (1)
             这种方法的语音是通过调制动态系统中相对较                                                i,j
             少的参数产生的,这意味着它真实的底层结构                              其中,v i 是可见单元的二值状态,h j 是隐层单元的
             是用了一组低维数据来表示一帧包含了上百参                              二值状态,a i 和 b j 分别是可见单元 i 和隐层单元 j

             数的语音。所以如果能充分挖掘帧中的信息,就                             的偏置值,w ij 是链接权值。通过E 可以定义可见单
             有可能找到一种比 GMM 更好的方法来进行语音                           元和隐层单元状态的联合分布概率:
             建模。                                                                       1
                                                                          p (v, h; w) =  e −E(v,h;w) ,    (2)
                 为克服上述缺点,有学者提出将深度神经网                                                  Z
                                                                                               ∑       ′  ′
             络应用于声学建模中,用深信度网络 (Deep belief                     其中Z 是配分函数或归一化项,Z =                 e −E(v ,h ;w) 。
             network, DBN)/隐马尔科夫模型 (DBN/HMM) 结                                                 v ,h ′
                                                                                                ′
                                                               模型中可见矢量v 的概率计算公式如下:
             构来提高最终的识别率            [5−6] 。Google 与 YouTube
                                                                                  1  ∑  −E(v,h;w)
             的相关实验也表明 DBN/HMM 在语音识别效果上                                    p(v) =       e         .        (3)
                                                                                 Z
                                           [4]
             要远远优于传统的 GMM/HMM 。而 DBN 是通                                              h
                                                                   因为 RBM 层内无连接,所以隐层单元之间是
             过将多个受限玻尔兹曼机 (Restricted Boltzmann
                                                               独立的,所以可见矢量 v 的概率是对隐层单元的求
             machine, RBM) 堆叠而成,所以 RBM 的训练成为
                                                               和。RBM中的权值更新算法依据梯度下降法                     [7] :
             整个结构的关键。Hinton         [7]  在 2010 年提出了对比
                                                                   n=N        n
             散度(Contrastive divergence, CD)用来训练RBM,              1  ∑  ∂ lg p (v )
                                                                                 = ⟨v i h j ⟩ data  − ⟨v i h j ⟩ model , (4)
             之后又出现了持续对比散度(Persistent contrastive                N  n=1    ∂w ij
             divergence, PCD) 。但是这两种方法都是对单条
                             [8]
                                                               式 (4) 表示由输入数据所确定的期望 ⟨v i h j ⟩          data  与
             马尔可夫链进行采样,且在初始化数据上也较为粗
                                                               模型获取的期望 ⟨v i h j ⟩   model  之间的差异。最终,可
             糙,导致其在计算模型期望时存在较大误差。                              以得到RBM 的权值每次更新的大小为
                 为此本文在并行回火(Parallel tempering, PT)                            (                     )
                                                                      ∆w ij = ϵ ⟨v i h j ⟩ data − ⟨v i h j ⟩  .  (5)
             算法的基础上,根据来自多条吉布斯链样本的状                                                              model
             态能量,进行等能量划分,构建多个能量环,提高
                                                               2 改进的RBM的训练算法
             相邻温度链之间的交换率,进而优化 RBM 的训练,
             并将训练好的RBM堆叠成DBN进行音素识别。在                               对于 RBM 而言,由于隐层单元之间没有连接,
             TIMIT语料库上,由改进的并行回火算法所获得的                          无偏样本⟨v i h j ⟩ data 是很容易得到的,而且条件分布
   39   40   41   42   43   44   45   46   47   48   49