Page 145 - 《应用声学》2020年第3期
P. 145
第 39 卷 第 3 期 李鹏等: 基于双向循环神经网络的汉语语音识别 465
较为重要的时序问题。DNN 和 CNN 对输入的音
0 引言
频信号的感受视野相对固定,所以对于与时序相
语音识别是指计算机能够理解人的语言,将音 关的问题不具有较好的处理能力。RNN 在隐含层
频信息转换成文本信息。随着互联网技术和人工智 存在反馈连接,它能通过递归来挖掘序列中上文
能技术的飞速发展,语音识别被逐渐应用到各个领 的相关信息,在一定程度上克服 DNN 和 CNN 的缺
域内,因此与之相关的研究也越来越受到重视。特 点 [11] ,但是却无法挖掘序列中下文的相关信息。随
别地,Google、Microsoft、科大讯飞、百度等公司,都 后,Schuster等 [12] 提出双向循环神经网络(Bidirec-
争相在语音识别上投入大规模的研发,推出相关的 tional RNN, Bi-RNN),并弥补了 RNN 的缺点,能
算法、软件及应用。语音识别的产业化也进一步推 够同时利用上下文信息,在时序问题上相对于 RNN
动着语音识别技术的发展。 识别正确率取得了进一步的提升。因此本文基于
语音识别的相关研究最早可以追溯至 20 世纪 Bi-RNN 模型在语音识别方面进行研究,从言语产
50 年代 AT&T 贝尔研究室。该研究室的 Audry 系 生与言语感知的角度对Bi-RNN 进行更深层次的解
统基于简单的孤立词,能够对 10 个单音节单词进 读,探讨了 Bi-RNN 模型在不同噪声环境中的识别
行识别。在 60 年代提出的动态时间规整 (Dynamic 效果,并进行大量的实验,选取出一套适合本模型的
time warping, DTW) 方法 [1] ,有效解决了两个不 参数,进一步地降低了语音识别错误率。
同长度音频片段的对齐问题。随后语音识别研究 在进行语音识别之前,本文首先对音频进行预
进一步发展,线性预测分析技术 (Linear predictive 处理。预处理包括对音频进行预加重、分帧和加窗。
coding, LPC)被扩展应用 [2] ,DTW也基本成熟。与 对预处理之后的音频做语音特征提取,即将音频
此同时,隐马尔科夫模型 (Hidden Markov model, 转化为梅尔频率倒谱系数 (Mel frequency cepstral
HMM) 理论被提出。随着 HMM技术不断成熟和完 coefficient, MFCC)。再用训练集迭代训练模型,将
善,语音识别从原来的模板匹配的方法转变为概率 训练后的模型对测试集进行实验,最后得到识别
模型的方法 [3] ,并且以 HMM 相关模型为主要研究 结果。
方法 [4] 。而后,人工神经网络(Artificial neural net,
1 循环神经网络结构
ANN) 逐渐被用于语音识别的研究中 [5] ,以寻求新
的突破。杨华民等 [6] 采用 ANN 进行语音识别的原 1.1 人工神经网络
理,给出了求解语音特征参数和典型神经网络的学 ANN 是一种由大量简单处理单元 (神经元) 按
习过程,通过具体的实例展示了 ANN 技术的实用 照不同的连接方式组成的运算模型。一个神经元的
化。但传统神经网络本身也存在需要大量标记数据 模型如图 1 所示。在结构上可以将人工神经网络划
等问题。2006年,Hinton等 [7] 提出了深度学习的概 分为3层——输入层、隐含层、输出层(图2)。神经网
念。此后,深度学习以其良好的普适性被应用到语 络的输入/输出关系表示为下列公式:
音识别领域里,打破了HMM的主导局面,极大地提 N
∑
升了基于传统神经网络的语音识别系统的性能,突 u i = w ij χ i − θ i , (1)
破了某些应用情景中的识别瓶颈 [8] 。 j=1
在深度学习的大环境下,最初应用在语音 o j = f(u i ), (2)
识别里的是深度置信网络 (Deep belief network,
DBN) [9] ,能够对神经网络进行预训练以达到使
模型稳定的效果。而后深度神经网络 (Deep neu-
ral network, DNN)、卷积神经网络 (Convolution
neural network, CNN) 和循环神经网络 (Recurrent
neural network, RNN) 等相继问世,这引发了人们
对各类神经网络进行深入研究。张仕良 [10] 指出基
图 1 神经元模型
于 DNN 的训练速度相较于 CNN 或 RNN 的更快,
Fig. 1 Neuron model
然而利用 DNN 进行语音识别却未能良好解决其中