Page 30 - 《应用声学》2021年第2期
P. 30
198 2021 年 3 月
的优势。但是也发现,正弦位置编码在验证集WER 达到最低的 8.16%。相比与正弦位置编码的基线模
大于帧叠加的情况下,测试集WER却相对较小。推 型,基于卷积位置编码的Transformer模型 WER降
测正弦位置编码效果更好,其可以在训练集上迭代 低了12.4%,达到了最佳的识别性能。
更少的轮数来获得更好的识别性能,因为降低验证
集 WER 通常需要调整更多参数设置,导致训练时 3 结论
间更长。
本文针对 Transformer 模型中编码器的输入信
只有卷积位置编码的 WER 低于正弦位置编
息,采用了具有可学习性的卷积位置编码,构建了序
码,测试集WER达到最低的8.62%,相对降低7.4%。
列到序列的 ASR 系统。输入卷积层捕获相对位置
进一步验证了卷积操作在时间和空间维度上的平
信息,这使后续的 Transformer 层能够了解编码器
移稳定性。分析原因是,卷积操作不仅在帧序列位
中局部概念之间的长距离关系,进而在解码器中预
置方向表达了相对位置信息,并且在梅尔滤波器组
测准确的目标序列。本文的 4 个位置编码方法,在
特征方向上提取到了高维特征信息。在共享卷积核
添加3-gram 语言模型基础上输出预测标签,最佳配
参数下实现这两种功能,既起到减少模型优化参数
置将 WER 相对降低了 12.4%。将本文的系统与更
量的效果,又融合了语声的位置和声学特征信息。
好的解码器优化方法结合,或许能够得到更好的识
表1 中最后一行还将正弦位置编码和卷积编码
别效果。另外,不同模型的组合也会带来不错的提
组合在一起,发现得不到任何提升。这进一步支持
升,例如结合具有循环机制的 Transformer 层,这将
了本文上述的推测,即卷积位置编码的相对信息为
是未来的研究工作。
Transformer层提供了足够的特征,以建立更多的全
局语声序列信息。
(2) 为了进一步探索卷积位置编码能在多大程 参 考 文 献
度上提高模型的识别效果,通过调整两层卷积核尺
寸大小,获得最低的测试集WER。实验过程如下: [1] Graves A, Jaitly N. Towards end-to-end speech recog-
nition with recurrent neural networks[C]//International
首先固定第二层卷积核尺寸为 (16, 9),实验结
Conference On Machine Learning, 2014: 1764–1772.
果如表2所示。 [2] Bahdanau D, Chorowski J, Serdyuk D, et al. End-
to-end attention-based large vocabulary speech recogni-
表 2 第一层卷积核不同尺寸下的 WER tion[C]//2016 IEEE International Conference on Acous-
Table 2 The first layer convolution kernel tics, Speech and Signal Processing (ICASSP). IEEE, 2016:
WER under different sizes 4945–4949.
[3] Bahdanau D, Cho K, Bengio Y. Neural machine trans-
lation by jointly learning to align and translate[J]. arXiv
卷积核尺寸 (21, 9) (31, 9) (31, 11) (41, 11) (41, 13)
Preprint, arXiv: 1409.0473, 2014.
WER 9.16 8.62 8.37 8.31 8.34
[4] Cho K, van Merriënboer B, Gulcehre C, et al. Learn-
ing phrase representations using RNN encoder-decoder for
表2 中第一行括号里数据为第一层卷积核的尺
statistical machine translation[J]. arXiv Preprint, arXiv:
寸。由表2中数据可得,(41, 11)时的WER最低。接 1406.1078, 2014.
着固定第一层卷积核尺寸为 (41, 11),实验结果如 [5] Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: a
表3所示。 neural network for large vocabulary conversational speech
recognition[C]//2016 IEEE International Conference on
表 3 第二层卷积核不同尺寸下的 WER Acoustics, Speech and Signal Processing (ICASSP). IEEE,
2016: 4960–4964.
Table 3 The second layer convolution ker-
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all
nel WER under different sizes you need[C]//Advances In Neural Information Processing
Systems, 2017: 5998–6008.
卷积核尺寸 (11, 9) (16, 9) (16, 11) (21, 11) (21, 13) [7] Dong L, Xu S, Xu B. Speech-transformer: a no-recurrence
WER 8.52 8.45 8.31 8.16 8.17 sequence-to-sequence model for speech recognition[C]//
2018 IEEE International Conference on Acoustics, Speech
and Signal Processing (ICASSP). IEEE, 2018: 5884–5888.
由表 3 可得,在本文实验中,两层卷积核尺寸
[8] Mohamed A, Okhonko D, Zettlemoyer L. Transformers
分别为 (41, 11) 和 (21, 11) 的条件下,测试集 WER with convolutional context for ASR[J]. arXiv Preprint,