Page 146 - 《应用声学》2020年第3期
P. 146
466 2020 年 5 月
ᬥեࡏ 来建立模型。然而语音识别却是一个典型的具有
ᣥКࡏ 时间特性的问题 [13] ,输入顺序是一个非常重要的
因素,它不类似于图像识别——对输入的顺序无特
ᣥѣࡏ
殊要求。因此为了解决 DNN、CNN 的这种弊端,对
RNN的研究在20世纪80年代迅速开展起来。
相较于 DNN或者 CNN,RNN 最大的不同之处
就是在隐含层中增加了节点之间的连接 [14−15] ,这
使得隐含层的输入不仅来源于输入层,还包含了
隐含层前一时刻的输出。RNN 是根据人的记忆原
理而产生的。比如一句话 “我要去饭吃了”,这句话
听起来很奇怪,这是因为大脑接收到这段话会受到
图 2 神经元网络 刺激,进而产生预测功能。如果 “我要去” 后面跟着
Fig. 2 Neural network “吃”,就感觉很正常。从言语产生和言语感知的角
度来理解,这是因为大脑对每个字的先后顺序是有
其中:w ij 为连接权重,即神经元i与神经元j 之间的
一定的判断的。其模型如图3所示。
连接强度;χ j 为神经元 i的某个状态变量;θ i 为神经
在 RNN 中,上一时间点到当前时间点变换过
元i的阈值;u i 为神经元i的活跃值;o j 为神经元i的
程中每层的权重W 是共享的,这样在很大程度上减
一个输出;f 为激活函数。
少了训练参数数目。图 3 中,W 0 表示输入层与隐含
1.2 单向循环神经网络 层之间的权重值,W 1 表示上一时刻隐含层到当前
在 DNN 或者 CNN 中,它们的基本前提是每层 时刻隐含层之间的权重值,W 2 表示隐含层与输出
之间的节点连接是相互独立的。这样的结构存在一 层之间的权重值;S (t) 表示隐含层的第 t 个 RNN 节
个潜在的弊端,即无法对具有时间特性的相关信息 点的输出状态。
ᣥѣࡏ Ā Ā
W S ↼t֓↽ S ↼t↽ W S ↼t⇁↽
W
ᬥեࡏ W RNN W RNN W RNN W
RNN
W W W
ᣥКࡏ Ā Ā
ᫎ Ā t֓ t t⇁ Ā
图 3 循环神经网络结构
Fig. 3 The structure of RNN
1.3 双向循环神经网络 脑对于信息的存储,并不是简单的单独存储,而是
由 1.2 节可知,传统的 RNN 只是利用了上一时 一种链条式的存储方式,这种方法有个极大的好处,
刻的信息,而在具有时间特性的语言序列中,有很多 大脑只要记住相关的存储规则或者方法就可以,这
需要同时联系过去与未来时刻的信息。同样是这句 样大大节省了很多空间。第二,大脑很难进行反方
话“我要去饭吃了”,如果说出 “饭”的前面一个字是 向的搜寻信息。基于这种现象,Bi-RNN 应运而生,
什么,大脑可能需要时间思考一下,甚至要再默念 相对于 CNN 结构与 DNN 结构,其最大的特点在于
一遍这句话,而不是反着读这句话“了吃饭去要我”, 能够将过去与未来的信息作为输入再一次地输入
但最终都会找到这个字。这种现象引发了两个很值 到神经元,这种结构非常适合具有时序性质的数据,
得思考的问题:第一,大脑可以通过一定的规则而 但同时也可能需要更长的训练时间。Bi-RNN 结构
找到 “饭” 这个字前面的字,这种现象可以理解为大 解决了其中较为重要的时序问题,能够对一些有时