Page 27 - 《应用声学》2021年第2期
P. 27

第 40 卷 第 2 期         徐冬冬: 基于 Transformer 的普通话语声识别模型位置编码选择                                   195


                                                               次应用非线性变换以产生文本。Transformer 整体
             0 引言
                                                               架构如图 1 所示,左半部分和右半部分分别表示堆
                 自动语声识别 (Automatic speech recognition,         叠多层自注意层和全连接前馈神经网络层的编码
             ASR)中的序列到序列(Sequence to sequence, S2S)            器和解码器结构。下面从局部到整体详细解释每个
             方法渐渐得到广泛关注,这是由于能够训练一个                             模块。
             共同的目标来优化整个模型结构,与传统的混合                                                           ᣥѣಖኤ
             系统相比,它降低了模型优化的复杂性。ASR 系统
                                                                                             softmax
             将声学、发音字典和语言建模组件的功能组合到单
             个神经网络中,实现从声频号到文本序列的直接映                                                          Лᤌଌࡏ
             射。早期ASR方法采用连接时序分类(Connection-                                             ᝍᆊ٨
             ist temporal classification, CTC)  [1] ,但是,这些模                                   ࡏॆʷӑ
                                                                    ᎄᆊ٨            K,V
             型需要与外部语言模型保持一致才能获得良好的                                                           Лᤌଌࡏ
             性能  [2] 。最初提出用于机器翻译的具有注意力                   [3]              ࡏॆʷӑ
             的循环神经网络(Recurrent neural network, RNN)                       Лᤌଌࡏ               ࡏॆʷӑ
                                                                                            ܳ݀ᒭฌਓ
             编码器-解码器       [4]  是端到端 ASR  [5]  的有效方法。这
                                                                                                         6T
             些系统在无语言模型设置中             [2]  的性能下降较少。             12T       ࡏॆʷӑ
                 最近,Transformer   [6]  编码器 -解码器体系结构                       ܳ݀ᒭฌਓ              ࡏॆʷӑ
             已应用于 ASR     [7−9] 。Transformer 训练可实现跨时                                       ಖኤܳ݀ᒭฌਓ
             间并行化,与带有循环机制的模型相比,速度更
             快  [6] 。这使得它们特别适合语声识别中遇到的大型                            ͯᎶᎄᆊ    ᚸՌ
             声频语料库。此外,Transformer是一种强大的自回                                             ͯᎶᎄᆊ    ᚸՌ
                                                                         ᣥКឦᮃྲढ़
             归模型   [10] ,在推理过程中无需使用语言模型即可获
                                                                                           ᣥѣಖኤࢦК
             得不错的识别效果而不会产生存储和计算开销问
             题  [8] 。                                                  图 1  Transformer 语声识别系统架构
                                                               Fig. 1 Transformer speech recognition system architecture
                 尽管当前的 ASR 技术在准确性上已取得了显
             着提高,但 Transformer 层在自注意的加权操作中                     1.1  多头注意
             不会保留位置信息,为了引入输入特征顺序,使用了
                                                                   首先,注意力是指使用基于内容的信息提取器
             正弦位置嵌入。之前 ASR 系统在编码网络中显式
                                                               的方法将维度为 d model 的输入映射到一组查询 Q、
             的添加循环神经网络层,也在一定程度上获得了上
                                                               键 K 和值 V 的矢量输出中           [11] 。其中查询 Q 和键
             下文相关信息。但本文认为上述位置编码增加了模
                                                               K 的维度为d k ,值V 的维度为d v 。使用所有的键计
             型优化的代价,隐式的添加相对位置信息,会具有
                                                               算查询的点积,再分别用根号 d k 进行除法运算,并
             更好的效果。具体来说,利用神经网络将输入特征
                                                               应用 softmax 函数来获得值的权重。最后返回值的
             和位置信息融合起来,并映射为高层特征表达,作
                                                               加权总和,如式(1)所示:
             为 Transformer 自注意层的输入。本文通过比较基                                                  (       )
                                                                                              QK  T
             于 Transformer 的不同位置编码技术特点,探索更                       Attention(Q, K, V )=softmax   √     V ,  (1)
             加适合普通话语声识别的位置编码技术。                                                                  d k
                                                               这里除以根号 d k 的原因是为了抵消 softmax 函数
             1 Transformer语声识别系统                               输入过大时,计算梯度太小的影响。
                                                                   多头注意是指采用h个注意力操作表示输入信
                 本文工作中使用的架构与 Vaswani 等              [6]  介绍
                                                               息,最后将输出结果串联。即多头注意层输出是将
             的 Transformer 模型类似,模型可以视为编码器 -解
                                                               各个注意头的级联输出乘以权重矩阵来计算的。
             码器模型。编码器模型以经过子层处理的语声特征
             作为输入,并对输入进行非线性变换以生成隐状态                                      MultiHead(Q, K, V )
                                                                                                   O
             表示,该隐状态表示被馈送到解码器中,该解码器再                                   = Concat(head 1 , · · · , head h )W ,  (2)
   22   23   24   25   26   27   28   29   30   31   32