Page 66 - 《应用声学》2020年第2期
P. 66

224                                                                                  2020 年 3 月


                                                               效地弥补了 RNN 的缺点,使其区别于 DNN、RNN
             0 引言
                                                               等网络架构成为神经网络的一个重要分支,并
                 自动语音识别 (Automatic speech recognition,         在图像识别      [16−18] 、视频动作识别      [19]  等领域取得
             ASR) 技术是人机交互的一项关键技术,近年来,                          到显著成功。Abdel 等        [20]  首次结合 CNN 与 HMM,
             基于深度学习的语音识别技术取得了跨越式的发                             构建 CNN-HMM 混合系统取得了开创性的进展;
             展  [1−2] ,在语音搜索、个人数码助理及车载娱乐系                      Sainath 等  [21]  采用深度卷积神经网络 (Deep con-
             统  [3]  等领域广泛应用。迄今为止,已有不少旨在                       volutional neural networks, DCNN) 应用于声学模
             提高语音识别声学模型准确率的方法,上述方法                             型并取得显著成功;Zhang 等           [22]  结合 DCNN-CTC

             大致可概括为 2 类:(1) 深度神经网络 -隐马尔科夫                      构建了端到端语音识别,取得了相对较好的结果;
             模型(Deep neural networks-hidden Markov model,      Hu 等 [23]  提出 SENet (Squeeze-and-excitation net-
             DNN-HMM) 声学模型       [4] ;(2) 端到端 (End-to-end)     works)网络结构,对DCNN 结构提取的特征权值进
             语音识别声学模型         [5] 。                            行重标定,进而提高网络性能。
                 DNN-HMM是对高斯混合模型-隐马尔科夫模                            综上所述,本文首先在深入研究 DCNN 网络
             型(Gaussian mixture model-hidden Markov model,     的基础上,结合 CTC 损失函数,构建 DCNN-CTC
             GMM-HMM)的改进,由DNN代替GMM来描述语                         声学模型。然后,在上述模型基础上对 DCNN 模型
             音声学特征的概率分布,弥补了 GMM 对语音特征                          在宽度上进行增加,从而提出多路卷积神经网络
             建模能力不足的缺点           [6] 。Li 等 [7]  使用 DNN-HMM     (Multipath convolutional neural network, MCNN)-
             替代 GMM-HMM使得语音识别识别性能得到显著                          CTC声学模型。最后,综合考虑SENet与MCNN网
             的提升;Peddinti 等    [8]  提出了一种结合时延神经网               络优势构建深度 SE-MCNN-CTC 语音识别声学模

             络 (Time delay neural network, TDNN) 与长短时          型,并通过实际数据集对上述声学模型有效性进行
             记忆网络 (Long short-term memory, LSTM) 声学            验证,模型最终错误率降至22.21%。
             模型,其可显著提高声学模型的识别准确率。
                                                               1 深度卷积神经网络连接时序分类
                 然而,训练一个 DNN-HMM 系统过程尤为复
             杂,并且模型的优劣很大程度上依赖人为经验                       [9] 。  1.1  卷积神经网络
             相较于训练上述系统,端到端语音识别系统的训
                                                                   CNN 主要包括卷积层、池化层以及全连接层,
             练过程非常简单。目前,端到端语音识别系统主
                                                               层与层之间通过局部连接、权值共享操作使得CNN
             要有 3 种:连接时序分类 (Connectionist temporal
                                                               参数相较于 DNN 以及 RNN 网络架构得到极大的
             classification, CTC) 模型  [10] 、循环神经网络转换
                                                               减少,并在一定程度上可以避免梯度问题                   [16] 。
             机制 (Recurrent neural network transducer, RNN
                                                                   图1给出了卷积神经网络用于语音识别声学模
             Transducer) [11]  以及基于注意力机制 (Attention-
                                                               型建模时,卷积层与池化层的结构图,其中卷积层
             based) 模型  [12] 。CTC 由于其建模过程简单被广
                                                               通过卷积核对特征局部进行加权计算,并且不断移
             泛关注。于重重等          [13]  基于 BLSTM(Bidirectional
                                                               动卷积窗口得到不同位置的特征;池化层对前一层
             long short-term memory)-CTC 对濒危语音识别进
                                                               提取的特征进行降采样,每一个特征图与相邻前一
             行研究,相较于混合系统取得了较好的实验结
                                                               层的卷积层特征图唯一对应。池化层旨在通过降采
             果;姚煜等    [14]  基于BLSTM-CTC-WFST(Weighted
                                                               样操作得到特征图空间不变性特征,同时降低网络
             finite-state transducer) 构建中文语音识别系统,明
                                                               的参数与计算量         [15] ,相应的计算如式 (1) 和式 (2)
             显降低了识别错误率。但上述声学模型多使用RNN
                                                               所示:
             网络结构,该结构参数繁多且容易出现梯度问题,卷
                                                                                (
             积神经网络 (Convolutional neural network, CNN)                   h (l)  = σ W  (l)  ∗ h (l−1)  + b (l)  ) ,  (1)
                                                                                     (
             由于权值共享、局部连接以及池化等操作                     [15] ,有              h (l+1)  = f pool h (l) ) .      (2)
   61   62   63   64   65   66   67   68   69   70   71