Page 146 - 《应用声学》2020年第3期
P. 146

466                                                                                  2020 年 5 月

                                 ᬥեࡏ                           来建立模型。然而语音识别却是一个典型的具有

                       ᣥКࡏ                                     时间特性的问题         [13] ,输入顺序是一个非常重要的
                                                               因素,它不类似于图像识别——对输入的顺序无特
                                            ᣥѣࡏ
                                                               殊要求。因此为了解决 DNN、CNN 的这种弊端,对
                                                               RNN的研究在20世纪80年代迅速开展起来。
                                                                   相较于 DNN或者 CNN,RNN 最大的不同之处
                                                               就是在隐含层中增加了节点之间的连接                    [14−15] ,这
                                                               使得隐含层的输入不仅来源于输入层,还包含了
                                                               隐含层前一时刻的输出。RNN 是根据人的记忆原
                                                               理而产生的。比如一句话 “我要去饭吃了”,这句话
                                                               听起来很奇怪,这是因为大脑接收到这段话会受到
                             图 2  神经元网络                        刺激,进而产生预测功能。如果 “我要去” 后面跟着
                          Fig. 2 Neural network                “吃”,就感觉很正常。从言语产生和言语感知的角
                                                               度来理解,这是因为大脑对每个字的先后顺序是有
             其中:w ij 为连接权重,即神经元i与神经元j 之间的
                                                               一定的判断的。其模型如图3所示。
             连接强度;χ j 为神经元 i的某个状态变量;θ i 为神经
                                                                   在 RNN 中,上一时间点到当前时间点变换过
             元i的阈值;u i 为神经元i的活跃值;o j 为神经元i的
                                                               程中每层的权重W 是共享的,这样在很大程度上减
             一个输出;f 为激活函数。
                                                               少了训练参数数目。图 3 中,W 0 表示输入层与隐含
             1.2 单向循环神经网络                                      层之间的权重值,W 1 表示上一时刻隐含层到当前
                 在 DNN 或者 CNN 中,它们的基本前提是每层                     时刻隐含层之间的权重值,W 2 表示隐含层与输出
             之间的节点连接是相互独立的。这样的结构存在一                            层之间的权重值;S (t) 表示隐含层的第 t 个 RNN 节
             个潜在的弊端,即无法对具有时间特性的相关信息                            点的输出状态。


                                 ᣥѣࡏ    Ā                                            Ā
                                             W  S ↼t֓↽        S ↼t↽       W  S ↼t⇁↽
                                                             W 
                                 ᬥեࡏ   W     RNN      W    RNN      W     RNN     W 
                                              RNN
                                             W             W              W 
                                ᣥКࡏ    Ā                                              Ā


                                 ௑ᫎ    Ā      t֓              t              t⇁     Ā
                                                   图 3  循环神经网络结构
                                                 Fig. 3 The structure of RNN
             1.3 双向循环神经网络                                      脑对于信息的存储,并不是简单的单独存储,而是
                 由 1.2 节可知,传统的 RNN 只是利用了上一时                    一种链条式的存储方式,这种方法有个极大的好处,
             刻的信息,而在具有时间特性的语言序列中,有很多                           大脑只要记住相关的存储规则或者方法就可以,这

             需要同时联系过去与未来时刻的信息。同样是这句                            样大大节省了很多空间。第二,大脑很难进行反方
             话“我要去饭吃了”,如果说出 “饭”的前面一个字是                         向的搜寻信息。基于这种现象,Bi-RNN 应运而生,
             什么,大脑可能需要时间思考一下,甚至要再默念                            相对于 CNN 结构与 DNN 结构,其最大的特点在于
             一遍这句话,而不是反着读这句话“了吃饭去要我”,                          能够将过去与未来的信息作为输入再一次地输入
             但最终都会找到这个字。这种现象引发了两个很值                            到神经元,这种结构非常适合具有时序性质的数据,
             得思考的问题:第一,大脑可以通过一定的规则而                            但同时也可能需要更长的训练时间。Bi-RNN 结构
             找到 “饭” 这个字前面的字,这种现象可以理解为大                         解决了其中较为重要的时序问题,能够对一些有时
   141   142   143   144   145   146   147   148   149   150   151