Page 146 - 《应用声学》2020年第3期

P. 146

466 2020 年 5 月

ᬥեࡏ 来建立模型。然而语音识别却是一个典型的具有

ᣥКࡏ 时间特性的问题 [13] ，输入顺序是一个非常重要的
因素，它不类似于图像识别——对输入的顺序无特
ᣥѣࡏ
殊要求。因此为了解决 DNN、CNN 的这种弊端，对
RNN的研究在20世纪80年代迅速开展起来。
相较于 DNN或者 CNN，RNN 最大的不同之处
就是在隐含层中增加了节点之间的连接 [14−15] ，这
使得隐含层的输入不仅来源于输入层，还包含了
隐含层前一时刻的输出。RNN 是根据人的记忆原
理而产生的。比如一句话 “我要去饭吃了”，这句话
听起来很奇怪，这是因为大脑接收到这段话会受到
图 2 神经元网络刺激，进而产生预测功能。如果 “我要去” 后面跟着
Fig. 2 Neural network “吃”，就感觉很正常。从言语产生和言语感知的角
度来理解，这是因为大脑对每个字的先后顺序是有
其中：w ij 为连接权重，即神经元i与神经元j 之间的
一定的判断的。其模型如图3所示。
连接强度；χ j 为神经元 i的某个状态变量；θ i 为神经
在 RNN 中，上一时间点到当前时间点变换过
元i的阈值；u i 为神经元i的活跃值；o j 为神经元i的
程中每层的权重W 是共享的，这样在很大程度上减
一个输出；f 为激活函数。
少了训练参数数目。图 3 中，W 0 表示输入层与隐含
1.2 单向循环神经网络层之间的权重值，W 1 表示上一时刻隐含层到当前
在 DNN 或者 CNN 中，它们的基本前提是每层时刻隐含层之间的权重值，W 2 表示隐含层与输出
之间的节点连接是相互独立的。这样的结构存在一层之间的权重值；S (t) 表示隐含层的第 t 个 RNN 节
个潜在的弊端，即无法对具有时间特性的相关信息点的输出状态。

ᣥѣࡏ Ā Ā
W  S ↼t֓↽ S ↼t↽ W  S ↼t⇁↽
W 
ᬥեࡏ W  RNN W  RNN W  RNN W 
RNN
W  W  W 
ᣥКࡏ Ā Ā

௑ᫎ Ā t֓ t t⇁ Ā
图 3 循环神经网络结构
Fig. 3 The structure of RNN
1.3 双向循环神经网络脑对于信息的存储，并不是简单的单独存储，而是
由 1.2 节可知，传统的 RNN 只是利用了上一时一种链条式的存储方式，这种方法有个极大的好处，
刻的信息，而在具有时间特性的语言序列中，有很多大脑只要记住相关的存储规则或者方法就可以，这

需要同时联系过去与未来时刻的信息。同样是这句样大大节省了很多空间。第二，大脑很难进行反方
话“我要去饭吃了”，如果说出 “饭”的前面一个字是向的搜寻信息。基于这种现象，Bi-RNN 应运而生，
什么，大脑可能需要时间思考一下，甚至要再默念相对于 CNN 结构与 DNN 结构，其最大的特点在于
一遍这句话，而不是反着读这句话“了吃饭去要我”，能够将过去与未来的信息作为输入再一次地输入
但最终都会找到这个字。这种现象引发了两个很值到神经元，这种结构非常适合具有时序性质的数据，
得思考的问题：第一，大脑可以通过一定的规则而但同时也可能需要更长的训练时间。Bi-RNN 结构
找到 “饭” 这个字前面的字，这种现象可以理解为大解决了其中较为重要的时序问题，能够对一些有时

141 142 143 144 145 146 147 148 149 150 151