Page 66 - 《应用声学》2020年第2期
P. 66
224 2020 年 3 月
效地弥补了 RNN 的缺点,使其区别于 DNN、RNN
0 引言
等网络架构成为神经网络的一个重要分支,并
自动语音识别 (Automatic speech recognition, 在图像识别 [16−18] 、视频动作识别 [19] 等领域取得
ASR) 技术是人机交互的一项关键技术,近年来, 到显著成功。Abdel 等 [20] 首次结合 CNN 与 HMM,
基于深度学习的语音识别技术取得了跨越式的发 构建 CNN-HMM 混合系统取得了开创性的进展;
展 [1−2] ,在语音搜索、个人数码助理及车载娱乐系 Sainath 等 [21] 采用深度卷积神经网络 (Deep con-
统 [3] 等领域广泛应用。迄今为止,已有不少旨在 volutional neural networks, DCNN) 应用于声学模
提高语音识别声学模型准确率的方法,上述方法 型并取得显著成功;Zhang 等 [22] 结合 DCNN-CTC
大致可概括为 2 类:(1) 深度神经网络 -隐马尔科夫 构建了端到端语音识别,取得了相对较好的结果;
模型(Deep neural networks-hidden Markov model, Hu 等 [23] 提出 SENet (Squeeze-and-excitation net-
DNN-HMM) 声学模型 [4] ;(2) 端到端 (End-to-end) works)网络结构,对DCNN 结构提取的特征权值进
语音识别声学模型 [5] 。 行重标定,进而提高网络性能。
DNN-HMM是对高斯混合模型-隐马尔科夫模 综上所述,本文首先在深入研究 DCNN 网络
型(Gaussian mixture model-hidden Markov model, 的基础上,结合 CTC 损失函数,构建 DCNN-CTC
GMM-HMM)的改进,由DNN代替GMM来描述语 声学模型。然后,在上述模型基础上对 DCNN 模型
音声学特征的概率分布,弥补了 GMM 对语音特征 在宽度上进行增加,从而提出多路卷积神经网络
建模能力不足的缺点 [6] 。Li 等 [7] 使用 DNN-HMM (Multipath convolutional neural network, MCNN)-
替代 GMM-HMM使得语音识别识别性能得到显著 CTC声学模型。最后,综合考虑SENet与MCNN网
的提升;Peddinti 等 [8] 提出了一种结合时延神经网 络优势构建深度 SE-MCNN-CTC 语音识别声学模
络 (Time delay neural network, TDNN) 与长短时 型,并通过实际数据集对上述声学模型有效性进行
记忆网络 (Long short-term memory, LSTM) 声学 验证,模型最终错误率降至22.21%。
模型,其可显著提高声学模型的识别准确率。
1 深度卷积神经网络连接时序分类
然而,训练一个 DNN-HMM 系统过程尤为复
杂,并且模型的优劣很大程度上依赖人为经验 [9] 。 1.1 卷积神经网络
相较于训练上述系统,端到端语音识别系统的训
CNN 主要包括卷积层、池化层以及全连接层,
练过程非常简单。目前,端到端语音识别系统主
层与层之间通过局部连接、权值共享操作使得CNN
要有 3 种:连接时序分类 (Connectionist temporal
参数相较于 DNN 以及 RNN 网络架构得到极大的
classification, CTC) 模型 [10] 、循环神经网络转换
减少,并在一定程度上可以避免梯度问题 [16] 。
机制 (Recurrent neural network transducer, RNN
图1给出了卷积神经网络用于语音识别声学模
Transducer) [11] 以及基于注意力机制 (Attention-
型建模时,卷积层与池化层的结构图,其中卷积层
based) 模型 [12] 。CTC 由于其建模过程简单被广
通过卷积核对特征局部进行加权计算,并且不断移
泛关注。于重重等 [13] 基于 BLSTM(Bidirectional
动卷积窗口得到不同位置的特征;池化层对前一层
long short-term memory)-CTC 对濒危语音识别进
提取的特征进行降采样,每一个特征图与相邻前一
行研究,相较于混合系统取得了较好的实验结
层的卷积层特征图唯一对应。池化层旨在通过降采
果;姚煜等 [14] 基于BLSTM-CTC-WFST(Weighted
样操作得到特征图空间不变性特征,同时降低网络
finite-state transducer) 构建中文语音识别系统,明
的参数与计算量 [15] ,相应的计算如式 (1) 和式 (2)
显降低了识别错误率。但上述声学模型多使用RNN
所示:
网络结构,该结构参数繁多且容易出现梯度问题,卷
(
积神经网络 (Convolutional neural network, CNN) h (l) = σ W (l) ∗ h (l−1) + b (l) ) , (1)
(
由于权值共享、局部连接以及池化等操作 [15] ,有 h (l+1) = f pool h (l) ) . (2)