Page 30 - 《应用声学》2021年第2期
P. 30

198                                                                                  2021 年 3 月


             的优势。但是也发现,正弦位置编码在验证集WER                           达到最低的 8.16%。相比与正弦位置编码的基线模
             大于帧叠加的情况下,测试集WER却相对较小。推                           型,基于卷积位置编码的Transformer模型 WER降
             测正弦位置编码效果更好,其可以在训练集上迭代                            低了12.4%,达到了最佳的识别性能。
             更少的轮数来获得更好的识别性能,因为降低验证
             集 WER 通常需要调整更多参数设置,导致训练时                          3 结论
             间更长。
                                                                   本文针对 Transformer 模型中编码器的输入信
                 只有卷积位置编码的 WER 低于正弦位置编
                                                               息,采用了具有可学习性的卷积位置编码,构建了序
             码,测试集WER达到最低的8.62%,相对降低7.4%。
                                                               列到序列的 ASR 系统。输入卷积层捕获相对位置
             进一步验证了卷积操作在时间和空间维度上的平
                                                               信息,这使后续的 Transformer 层能够了解编码器
             移稳定性。分析原因是,卷积操作不仅在帧序列位
                                                               中局部概念之间的长距离关系,进而在解码器中预
             置方向表达了相对位置信息,并且在梅尔滤波器组
                                                               测准确的目标序列。本文的 4 个位置编码方法,在
             特征方向上提取到了高维特征信息。在共享卷积核
                                                               添加3-gram 语言模型基础上输出预测标签,最佳配
             参数下实现这两种功能,既起到减少模型优化参数
                                                               置将 WER 相对降低了 12.4%。将本文的系统与更
             量的效果,又融合了语声的位置和声学特征信息。
                                                               好的解码器优化方法结合,或许能够得到更好的识
                 表1 中最后一行还将正弦位置编码和卷积编码
                                                               别效果。另外,不同模型的组合也会带来不错的提
             组合在一起,发现得不到任何提升。这进一步支持
                                                               升,例如结合具有循环机制的 Transformer 层,这将
             了本文上述的推测,即卷积位置编码的相对信息为
                                                               是未来的研究工作。
             Transformer层提供了足够的特征,以建立更多的全
             局语声序列信息。
                 (2) 为了进一步探索卷积位置编码能在多大程                                       参 考 文        献
             度上提高模型的识别效果,通过调整两层卷积核尺
             寸大小,获得最低的测试集WER。实验过程如下:                             [1] Graves A, Jaitly N. Towards end-to-end speech recog-
                                                                   nition with recurrent neural networks[C]//International
                 首先固定第二层卷积核尺寸为 (16, 9),实验结
                                                                   Conference On Machine Learning, 2014: 1764–1772.
             果如表2所示。                                             [2] Bahdanau D, Chorowski J, Serdyuk D, et al.  End-
                                                                   to-end attention-based large vocabulary speech recogni-
                   表 2  第一层卷积核不同尺寸下的 WER                           tion[C]//2016 IEEE International Conference on Acous-
                Table 2 The first layer convolution kernel          tics, Speech and Signal Processing (ICASSP). IEEE, 2016:
                WER under different sizes                           4945–4949.
                                                                 [3] Bahdanau D, Cho K, Bengio Y. Neural machine trans-
                                                                   lation by jointly learning to align and translate[J]. arXiv
              卷积核尺寸 (21, 9)   (31, 9) (31, 11) (41, 11) (41, 13)
                                                                   Preprint, arXiv: 1409.0473, 2014.
                WER      9.16  8.62   8.37   8.31    8.34
                                                                 [4] Cho K, van Merriënboer B, Gulcehre C, et al. Learn-
                                                                   ing phrase representations using RNN encoder-decoder for
                 表2 中第一行括号里数据为第一层卷积核的尺
                                                                   statistical machine translation[J]. arXiv Preprint, arXiv:
             寸。由表2中数据可得,(41, 11)时的WER最低。接                          1406.1078, 2014.
             着固定第一层卷积核尺寸为 (41, 11),实验结果如                         [5] Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: a
             表3所示。                                                 neural network for large vocabulary conversational speech
                                                                   recognition[C]//2016 IEEE International Conference on
                   表 3  第二层卷积核不同尺寸下的 WER                           Acoustics, Speech and Signal Processing (ICASSP). IEEE,
                                                                   2016: 4960–4964.
                Table 3 The second layer convolution ker-
                                                                 [6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all
                nel WER under different sizes                       you need[C]//Advances In Neural Information Processing
                                                                   Systems, 2017: 5998–6008.
              卷积核尺寸     (11, 9)  (16, 9)  (16, 11)  (21, 11)  (21, 13)  [7] Dong L, Xu S, Xu B. Speech-transformer: a no-recurrence
                WER      8.52  8.45   8.31   8.16    8.17          sequence-to-sequence model for speech recognition[C]//
                                                                   2018 IEEE International Conference on Acoustics, Speech
                                                                   and Signal Processing (ICASSP). IEEE, 2018: 5884–5888.
                 由表 3 可得,在本文实验中,两层卷积核尺寸
                                                                 [8] Mohamed A, Okhonko D, Zettlemoyer L. Transformers
             分别为 (41, 11) 和 (21, 11) 的条件下,测试集 WER                  with convolutional context for ASR[J]. arXiv Preprint,
   25   26   27   28   29   30   31   32   33   34   35