Page 27 - 《应用声学》2021年第2期
P. 27
第 40 卷 第 2 期 徐冬冬: 基于 Transformer 的普通话语声识别模型位置编码选择 195
次应用非线性变换以产生文本。Transformer 整体
0 引言
架构如图 1 所示,左半部分和右半部分分别表示堆
自动语声识别 (Automatic speech recognition, 叠多层自注意层和全连接前馈神经网络层的编码
ASR)中的序列到序列(Sequence to sequence, S2S) 器和解码器结构。下面从局部到整体详细解释每个
方法渐渐得到广泛关注,这是由于能够训练一个 模块。
共同的目标来优化整个模型结构,与传统的混合 ᣥѣಖኤ
系统相比,它降低了模型优化的复杂性。ASR 系统
softmax
将声学、发音字典和语言建模组件的功能组合到单
个神经网络中,实现从声频号到文本序列的直接映 Лᤌଌࡏ
射。早期ASR方法采用连接时序分类(Connection- ᝍᆊ٨
ist temporal classification, CTC) [1] ,但是,这些模 ࡏॆʷӑ
ᎄᆊ٨ K,V
型需要与外部语言模型保持一致才能获得良好的 Лᤌଌࡏ
性能 [2] 。最初提出用于机器翻译的具有注意力 [3] ࡏॆʷӑ
的循环神经网络(Recurrent neural network, RNN) Лᤌଌࡏ ࡏॆʷӑ
ܳ݀ᒭฌਓ
编码器-解码器 [4] 是端到端 ASR [5] 的有效方法。这
6T
些系统在无语言模型设置中 [2] 的性能下降较少。 12T ࡏॆʷӑ
最近,Transformer [6] 编码器 -解码器体系结构 ܳ݀ᒭฌਓ ࡏॆʷӑ
已应用于 ASR [7−9] 。Transformer 训练可实现跨时 ಖኤܳ݀ᒭฌਓ
间并行化,与带有循环机制的模型相比,速度更
快 [6] 。这使得它们特别适合语声识别中遇到的大型 ͯᎶᎄᆊ ᚸՌ
声频语料库。此外,Transformer是一种强大的自回 ͯᎶᎄᆊ ᚸՌ
ᣥКឦᮃྲढ़
归模型 [10] ,在推理过程中无需使用语言模型即可获
ᣥѣಖኤࢦК
得不错的识别效果而不会产生存储和计算开销问
题 [8] 。 图 1 Transformer 语声识别系统架构
Fig. 1 Transformer speech recognition system architecture
尽管当前的 ASR 技术在准确性上已取得了显
着提高,但 Transformer 层在自注意的加权操作中 1.1 多头注意
不会保留位置信息,为了引入输入特征顺序,使用了
首先,注意力是指使用基于内容的信息提取器
正弦位置嵌入。之前 ASR 系统在编码网络中显式
的方法将维度为 d model 的输入映射到一组查询 Q、
的添加循环神经网络层,也在一定程度上获得了上
键 K 和值 V 的矢量输出中 [11] 。其中查询 Q 和键
下文相关信息。但本文认为上述位置编码增加了模
K 的维度为d k ,值V 的维度为d v 。使用所有的键计
型优化的代价,隐式的添加相对位置信息,会具有
算查询的点积,再分别用根号 d k 进行除法运算,并
更好的效果。具体来说,利用神经网络将输入特征
应用 softmax 函数来获得值的权重。最后返回值的
和位置信息融合起来,并映射为高层特征表达,作
加权总和,如式(1)所示:
为 Transformer 自注意层的输入。本文通过比较基 ( )
QK T
于 Transformer 的不同位置编码技术特点,探索更 Attention(Q, K, V )=softmax √ V , (1)
加适合普通话语声识别的位置编码技术。 d k
这里除以根号 d k 的原因是为了抵消 softmax 函数
1 Transformer语声识别系统 输入过大时,计算梯度太小的影响。
多头注意是指采用h个注意力操作表示输入信
本文工作中使用的架构与 Vaswani 等 [6] 介绍
息,最后将输出结果串联。即多头注意层输出是将
的 Transformer 模型类似,模型可以视为编码器 -解
各个注意头的级联输出乘以权重矩阵来计算的。
码器模型。编码器模型以经过子层处理的语声特征
作为输入,并对输入进行非线性变换以生成隐状态 MultiHead(Q, K, V )
O
表示,该隐状态表示被馈送到解码器中,该解码器再 = Concat(head 1 , · · · , head h )W , (2)