Page 111 - 201806
P. 111

第 37 卷 第 6 期               杨洋等: 基于改进卷积神经网络算法的语音识别                                           941


                                                               下的语音识别,比如距离较远的语音识别系统,提
             1 引言
                                                               出的 CNN 语音识别模型要比 DNN 更有效,适应能
                 自动语音识别 (Automatic speech recognition,         力更强。很长一段时间以来 CNN 都是与其他深层
             ASR) 技术能够使人与人、人与机器实现更顺畅的                          神经网络结合,也就是在底层采用 CNN,高层采
             交流  [1] 。语音识别技术经过 50 多年的发展,为人                     用 DNN 等其他的深度神经网络模型。然而在最近
             们的生活带来了巨大的变化,比如语音智能控制                             的一些研究工作中,CNN 不再只应用在底层,文
             家居设备以及车载娱乐等。语音识别中两种典型                             献 [9–12] 在进行语音识别时,采用大于 10层的非常
             的并且截止到现在仍被广泛使用的方法有 (1) 基于                         深的CNN模型,极大地提高了系统性能。
             高斯混合模型 -隐马尔可夫模型 (Gaussian mixture                     CNN在卷积层采用局部连接、共享权值的方式
             model-Hidden Markov model, GMM-HMM) 的语            提取特征,减少了权值的训练数量并能在一定程度
             音识别系统;(2) 基于深度学习 -隐马尔可夫模型                         上防止过拟合问题的出现,在卷积层之后经过池化
             (Deep learning-Hidden Markov model, DL-HMM)       层 (又叫聚合层) 的最大池化或平均池化技术的处
             的语音识别系统        [2] 。传统的 GMM-HMM 方法在扁              理,使得模型结构进一步简化,并能增强语音识别系
             平浅层生成式模型的基础上,结合线性判别分析                             统的鲁棒性。本文基于标准语音数据库 TIMIT 以
             (Linear discriminant analysis, LDA)、最大似然训         及THCHS30提出一种改进的 CNN算法,在反向传
             练准则 (Maximum likelihood estimation, MLE)    [3]   播调节参数阶段,采用结合Fisher准则以及L2正则
             以及说话人自适应等技术,在简单的场景中得到了                            化的约束项,既保证参数误差的最小化,又同时使
             较好的运用。但是随着技术的发展以及人类需求的                            得不同类型的样本在分类以后相对分散,类内样本
             不断提高,需要应用自动语音识别的场景越来越复                            间相对集中,从而使得训练的参数更接近于最优值
             杂,传统的 GMM-HMM 已不再适用,具有更加强                         以及减轻语音识别容易出现的过拟合问题,并采用

             大建模能力的声学模型成为迫切的需要,由此基于                            一种更符合生物神经元的新型的 log 激活函数进行
             DL-HMM声学模型的语音识别系统开始流行。                            CNN的优化,进一步降低语音识别的错误率。
                 当前识别语音信号主流的深度学习算法为
             深层神经网络 (Deep neural network, DNN)、长               2 深度卷积模型基本原理
             短时记忆网络 (Long short-term memory, LSTM)
             以及卷积神经网络 (Convolutional neural network,               CNN的结构如图1所示。深度卷积模型一般包
             CNN)。2009 年,DNN 首次被用于加强隐马尔可夫                      括输入层、卷积层、池化层、全连接层以及输出层,卷
             声学模型的构建,对 TIMIT 语音数据库进行音素                         积层和池化层是特殊的隐含层               [13] 。通常卷积层之
             级的识别     [4] ,识别效果得到很大改善。文献 [5] 利                 后是聚合层,两者以一组或多组的形式成对出现,但
             用 CNN、LSTM 和 DNN 的互补性将它们组合成一                      是特定场景下也可以采用隐含层不包含聚合层的
             个统一的 CLDNN 体系结构,使得语音识别率得到                         特殊深度卷积模型。全连接层可以为单层也可以为
             4%∼6% 的相对改善。目前,IBM、微软、百度等多                        多层,其作用就是将经过池化处理以后的信号特征
             家机构相继推出了自己的深度学习语音识别模型,                            进行全连接,然后送到输出层进行分类,输出层的激
             使得语音识别研究取得了很大的突破。其中 CNN                           活单元一般选择 softmax 函数。一个卷积层包括多
             是一种深度结构学习算法,相较于其他深层神经                             个卷积特征图谱 (又叫卷积面),每个卷积特征图谱
             网络结构,CNN 具有权值共享、局部卷积以及池化                          对应于一个卷积滤波器 (又叫卷积核),通过对应卷
             的明显特征,这些特点决定了 CNN 具有复杂度低                          积核对输入的信号特征进行局部的过滤可得到该
             的特性   [6] 。因此,在语音识别领域,研究者开始将                      卷积特征图谱上的神经元输入。池化层以固定的窗
             目光转向 CNN,构建 CNN-HMM 声学模型。与只                       口大小对每个卷积特征图谱做下采样,一般都采用
             使用 DNN-HMM 的声学模型相比,文献 [7] 提出的                     最大池化技术,也就是取每个卷积面在池化窗口大
             CNN-DNN-HMM结构在大词汇量连续语音识别中                         小内的最大值作为对应下采样面的神经元输入,这
             获得了更高的识别正确率。文献 [8] 针对特定情形                         种方式明显降低了每个下采样面的神经元数目。
   106   107   108   109   110   111   112   113   114   115   116