Page 145 - 《应用声学》2020年第3期
P. 145

第 39 卷 第 3 期               李鹏等: 基于双向循环神经网络的汉语语音识别                                           465


                                                               较为重要的时序问题。DNN 和 CNN 对输入的音
             0 引言
                                                               频信号的感受视野相对固定,所以对于与时序相
                 语音识别是指计算机能够理解人的语言,将音                          关的问题不具有较好的处理能力。RNN 在隐含层
             频信息转换成文本信息。随着互联网技术和人工智                            存在反馈连接,它能通过递归来挖掘序列中上文
             能技术的飞速发展,语音识别被逐渐应用到各个领                            的相关信息,在一定程度上克服 DNN 和 CNN 的缺
             域内,因此与之相关的研究也越来越受到重视。特                            点 [11] ,但是却无法挖掘序列中下文的相关信息。随
             别地,Google、Microsoft、科大讯飞、百度等公司,都                  后,Schuster等   [12]  提出双向循环神经网络(Bidirec-
             争相在语音识别上投入大规模的研发,推出相关的                            tional RNN, Bi-RNN),并弥补了 RNN 的缺点,能
             算法、软件及应用。语音识别的产业化也进一步推                            够同时利用上下文信息,在时序问题上相对于 RNN
             动着语音识别技术的发展。                                      识别正确率取得了进一步的提升。因此本文基于
                 语音识别的相关研究最早可以追溯至 20 世纪                        Bi-RNN 模型在语音识别方面进行研究,从言语产
             50 年代 AT&T 贝尔研究室。该研究室的 Audry 系                    生与言语感知的角度对Bi-RNN 进行更深层次的解
             统基于简单的孤立词,能够对 10 个单音节单词进                          读,探讨了 Bi-RNN 模型在不同噪声环境中的识别
             行识别。在 60 年代提出的动态时间规整 (Dynamic                     效果,并进行大量的实验,选取出一套适合本模型的
             time warping, DTW) 方法   [1] ,有效解决了两个不             参数,进一步地降低了语音识别错误率。
             同长度音频片段的对齐问题。随后语音识别研究                                 在进行语音识别之前,本文首先对音频进行预
             进一步发展,线性预测分析技术 (Linear predictive                 处理。预处理包括对音频进行预加重、分帧和加窗。
             coding, LPC)被扩展应用      [2] ,DTW也基本成熟。与            对预处理之后的音频做语音特征提取,即将音频
             此同时,隐马尔科夫模型 (Hidden Markov model,                 转化为梅尔频率倒谱系数 (Mel frequency cepstral
             HMM) 理论被提出。随着 HMM技术不断成熟和完                         coefficient, MFCC)。再用训练集迭代训练模型,将
             善,语音识别从原来的模板匹配的方法转变为概率                            训练后的模型对测试集进行实验,最后得到识别
             模型的方法      [3] ,并且以 HMM 相关模型为主要研究                 结果。
             方法  [4] 。而后,人工神经网络(Artificial neural net,
                                                               1 循环神经网络结构
             ANN) 逐渐被用于语音识别的研究中                [5] ,以寻求新
             的突破。杨华民等         [6]  采用 ANN 进行语音识别的原             1.1  人工神经网络
             理,给出了求解语音特征参数和典型神经网络的学                                ANN 是一种由大量简单处理单元 (神经元) 按
             习过程,通过具体的实例展示了 ANN 技术的实用                          照不同的连接方式组成的运算模型。一个神经元的
             化。但传统神经网络本身也存在需要大量标记数据                            模型如图 1 所示。在结构上可以将人工神经网络划
             等问题。2006年,Hinton等       [7]  提出了深度学习的概            分为3层——输入层、隐含层、输出层(图2)。神经网
             念。此后,深度学习以其良好的普适性被应用到语                            络的输入/输出关系表示为下列公式:
             音识别领域里,打破了HMM的主导局面,极大地提                                               N
                                                                                  ∑
             升了基于传统神经网络的语音识别系统的性能,突                                          u i =   w ij χ i − θ i ,     (1)
             破了某些应用情景中的识别瓶颈               [8] 。                                   j=1
                 在深度学习的大环境下,最初应用在语音                                          o j = f(u i ),               (2)
             识别里的是深度置信网络 (Deep belief network,
             DBN)  [9] ,能够对神经网络进行预训练以达到使
             模型稳定的效果。而后深度神经网络 (Deep neu-
             ral network, DNN)、卷积神经网络 (Convolution

             neural network, CNN) 和循环神经网络 (Recurrent
             neural network, RNN) 等相继问世,这引发了人们
             对各类神经网络进行深入研究。张仕良                   [10]  指出基
                                                                               图 1  神经元模型
             于 DNN 的训练速度相较于 CNN 或 RNN 的更快,
                                                                             Fig. 1 Neuron model
             然而利用 DNN 进行语音识别却未能良好解决其中
   140   141   142   143   144   145   146   147   148   149   150