Page 114 - 201806
P. 114

944                                                                                 2018 年 11 月

                     
                                 ∂C
                     
                      w → w − η
                                                              4 实验结果与分析
                                ∂w
                     
                     
                     
                     
                                  ∂C 0
                     
                           = w − η     − ηλw
                                                                  为了验证所提算法的有效性,本文分别基于
                                    ∂w
                                                       (11)
                                          ∂C 0                TIMIT和THCHS30数据库进行实验。由于连续语
                     
                           = (1 − ηλ)w − η    ,
                     
                                          ∂w                  音识别最终识别出来的一般都是按照特定顺序排
                     
                     
                     
                     
                               ∂C         ∂C 0
                                                              列的一串词,因此实验中采用的评测标准是词错率
                      b → b − η    = b − η    .
                                ∂b         ∂b                  (Word error rate, WER),WER值的大小与系统的
             式 (2) 中的参数需由实验确定,本文选择 a = 0.03,
                                                               整体性能优劣成反比。选用 n-gram 的统计语言模
             b = 0.03,λ = 0.0004。
                                                               型,即当前词出现的概率只与其前面的n个词有关。
             3.2 改进的log激活函数
                                                               4.1  基于TIMIT数据库的实验
                 由于线性激活函数的复杂性有限,从数据中学
             习复杂特征的能力较弱,因此在 CNN 中一般均采                              TIMIT 是常用的英文语音库,将数据库中的
             用非线性激活函数,如 sigmoid 函数、tanh 函数,表                   462 个说话人的语音作为训练集,将 40 个说话人的
             达式分别如式(12)和式(13)所示:                               语音作为测试集,两个集之间无重叠。选用 2-gram
                                         1                     的统计语言模型。在特征提取部分,广泛使用的
                        sigmoid (x) =        ,         (12)
                                      1 + e −x                 声学特征是梅尔频率倒谱系数 (Mel-frequency cep-
                                      1 − e −2x                stral coefficients, MFCC),但是在提取 MFCC对梅
                           tanh (x) =         .        (13)
                                      1 + e −2x
                                                               尔能量做离散余弦变换时会使能量值发生偏置,不
                 sigmoid 函数和 tanh 函数均是饱和的,梯度在
                                                               利于 CNN 对特征做局部提取,因此实验选用帧与
             向底层传递时很容易消失,而且 tanh函数关于原点
                                                               帧之间具有较强关联性的 FBANK 声学特征,每帧
             对称,这与生物神经元的激活特征是不相符的。根
                                                               语音数据提取的 FBANK 特征维度为 36维,同时对
             据大脑神经元激活的仿真模型,提出了一种新的log
                                                               其做一阶和二阶差分扩展。对每帧声学特征做倒谱
             激活函数来优化 CNN,使得语音识别的词错率得到
                                                               均值和归一化。实验中,沿时间轴左右各展开 5 帧,
             进一步的降低,表达式如式(14)所示:
                                                              构成上下文相关的11帧串联长时特征。
                                ln(x + 1), x > 0,                  本实验所训练的二维 CNN 的隐含层包括一层
                              
                       f(x) =                          (14)
                                0,        x 6 0.
                                                              卷积层、一层聚合层和一层全连接层,输出采用
                 新型log激活模型的函数图像如图3所示。                          softmax 层。卷积核的数目为 256,卷积核的大小为
                                                               9 × 9,步进为1 × 1;聚合层采用最大聚合算法,4 个
                                                   f↼x↽
                                 ⊲
                                                               神经元中选择最大的一个节点值作为输出,步长为
                                                               1 × 4;全连接层的神经元数为1024。CNN的输出层
                                 ⊲
                                                               输出的是语音帧属于某个类别的后验概率,在语音
                 ֓      ֓                               识别中类指的是音素,实验中语音数据的音素类别
                                ֓⊲                           数为144(48个音素,每个音素三个状态)。
                                                                   表 1 给出了 TIMIT 测试集上不同模型之间的
                                ֓⊲
                                                               对比实验结果:Fisher模型较一般模型,词错率降低
                          图 3  新型 log 激活函数                     了1.1%,语音识别性能有较好的提升;在使用 L2 正
                     Fig. 3 New log activation function        则化进行改进以后,词错率有略微下降;而在进一步
                 当神经元输入特征值小于零时,新型 log 激活                       使用 log 激活函数进行优化以后,词错率又有略微
             函数将输出值强制为零,符合生物学神经元的稀疏                            下降。总体来说,使用优化 CNN算法的识别正确率
             激活特性,缓解过拟合问题的发生;输入特征值大于                           比传统CNN提高了1.6%。由此可知,本文所提出的
             零时,输出值随输入值呈非线性递增变化,能有效缓                           CNN 改进算法在 TIMIT 语音数据库中能较好地提
             解梯度消失的问题。                                         升语音识别的准确率。
   109   110   111   112   113   114   115   116   117   118   119