Page 152 - 《应用声学》2025年第2期
P. 152

412                                                                                  2025 年 3 月


             方言中达到了目前最优的识别效果,测试集CER为                            [12] 郭龙银, 扎西多吉, 尚慧杰, 等. 基于 LSTM 的藏语语音识
             14.67%。                                               别 [J]. 电脑知识与技术, 2020,16(4): 154–155.
                                                                [13] 黄志东. 基于深度卷积神经网络的藏语语音识别研究 [D]. 西
                 根据藏语语声识别研究的现状,本文比较了 4
                                                                   宁: 青海师范大学, 2020.
             种建模单元的效果,为藏语语声识别任务中建模单                             [14] 孙婧雯. 基于深度学习的藏语安多方言语音识别的研究 [D].
             元的选择提供了参考。未来将在标签平衡的数据集                                兰州: 西北师范大学, 2020.
                                                                [15] 高飞. 藏语拉萨话音视频语音识别研究 [D]. 北京: 中央民族
             上验证基于藏字音节的建模单元的性能。建模单元                                大学, 2021.
             只是语声识别任务的第一步,相较于汉语和英语的                             [16] 侯苗苗. 基于 CNN 多特征融合的藏语语音识别的研究 [D].
             语声识别成果,藏语语声识别还存在很大的差距,                                兰州: 西北师范大学, 2021.
                                                                [17] 算太本. 基于深度学习的安多藏语语音识别技术研究 [D]. 西
             进一步提升模型的区分度和鲁棒性,研究声学模型                                宁: 青海师范大学, 2021.
             和语言模型的混合模型,将是下一阶段的研究工作                             [18] 康杰. 基于深度学习的端到端安多藏语语音识别系统设
             重点。                                                   计 [D]. 西宁: 青海师范大学, 2021.
                                                                [19] 贡保加. 基于 MRDCNN _ CTC&Transformer 的安多藏语
                                                                   语音识别技术研究 [D]. 西宁: 青海师范大学, 2022.
                            参 考     文   献
                                                                [20] Panayotov V, Chen G, Povey D, et al. Librispeech: An
                                                                   asr corpus based on public domain audio books[C]//2015
              [1] Li J. Recent advances in end-to-end automatic speech
                                                                   IEEE international conference on acoustics, speech and
                 recognition[J]. APSIPA Transactions on Signal and Infor-
                                                                   signal processing (ICASSP). IEEE, 2015: 5206–5210.
                 mation Processing, 2022, 11(1): e8.
                                                                [21] Schneider S, Baevski A, Collobert R, et al. wav2vec: Un-
              [2] Chung Y A, Zhang Y, Han W, et al. W2v-bert: Com-
                                                                   supervised pre-training for speech recognition[J]. arXiv
                 bining contrastive learning and masked language model-
                                                                   Preprint, arXiv: 1904.05862, 2019.
                 ing for self-supervised speech pre-training[C]//2021 IEEE
                                                                [22] Hsu W N, Bolte B, Tsai Y H H, et al.  Hubert:
                 Auto-matic Speech Recognition and Understanding Work-
                                                                   Self-supervised speech representation learning by masked
                 shop (ASRU). IEEE, 2021: 244–250.
                                                                   prediction of hidden units[J]. IEEE/ACM Transactions
              [3] Liu Y, Li T, Zhang P, et al. Improved conformer-based
                                                                   on Audio, Speech, and Language Processing, 2021, 29:
                 end-to-end speech recognition using neural architecture
                                                                   3451–3460.
                 search[J]. arXiv Preprint, arXiv: 2104.05390, 2021.
                                                                [23] Bu H, Du J, Na X, et al.  Aishell-1: An open-source
              [4] 王福钊, 周雁. 藏语语音识别研究进展和展望 [J]. 计算机系统
                                                                   mandarin speech corpus and a speech recognition base-
                 应用, 2020, 29(3): 29–38.
                                                                   line[C]//2017 20th conference of the oriental chapter
                 Wang Fuzhao, Zhou Yan. Progress and prospects of ti-
                                                                   of the international coordinating committee on speech
                 betan speech recognition research[J]. Computer Systems
                                                                   databases and speech I/O systems and assessment (O-
                 & Applications, 2020, 29(3): 29–38.
                                                                   COCOSDA). IEEE, 2017: 1–5.
              [5] 杨晓东. 在线藏语语音识别系统的研究 [D]. 兰州: 西北师范
                                                                [24] Zhou X, Wang J, Cui Z, et al. Mmspeech: Multi-modal
                 大学, 2021.
                                                                   multi-task encoder-decoder pre-training for speech recog-
              [6] 边巴旺堆, 王希, 王君堡. 藏语语音识别研究进展综述 [J]. 高
                                                                   nition[J]. arXiv Preprint, arXiv: 2212.00500, 2022.
                 原科学研究, 2022, 6(4): 76–84.
                                                                [25] 瞿霭堂. 藏族的语言和文字 [J]. 中国藏学, 1992(3): 139–155.
                 Bianba Wangdui, Wang Xi, Wang Junbao. An overview
                                                                [26] 根呷翁姆. 藏语的方言分类及其特点 [J]. 中国语言学研究,
                 of the research progress of tibetan speech recognition[J].
                                                                   2022(2): 247–261.
                 Plateau Science Research, 2022, 6(4): 76–84.
                                                                   Genga Wengmu. The classification and characteristics of
              [7] 仁曾卓玛, 朱丽平. 藏语方言语音合成数据集 [J]. 中国科学数
                                                                   Tibetan dialects[J]. Journal of Studies on Languages in
                 据 (中英文网络版), 2022, 7(2): 24–33.
                                                                   China, 2022(2): 247–261.
                 Renzeng Zhuoma, Zhu Liping.  A dataset of Tibetan
                                                                [27] 高定国, 珠杰. 藏文信息处理的原理与应用 [M]. 成都: 西南交
                 dialect speech synthesis[J]. China Scientific Data, 2022,
                                                                   通大学出版社, 2013.
                 7(2): 24–33.
                                                                [28] Oord A, Li Y, Vinyals O. Representation learning with
              [8] 彭毛扎西, 才智杰, 才让卓玛. 藏语情感语音数据库构建 [J].
                                                                   contrastive predictive coding[J]. arXiv Preprint, arXiv:
                 北京大学学报 (自然科学版), 2023, 59(5): 773–781.
                                                                   1807.03748, 2018.
                 Pengmao Zhaxi, Cai Zhijie, Cairang Zhuoma. Construc-
                                                                [29] Baevski A, Schneider S, Auli M. vq-wav2vec:  Self-
                 tion of Tibetan emotional speech database[J]. Acta Scien-
                                                                   supervised learning of discrete speech representa-tions[J].
                 tiarum Naturalium Universitatis Pekinensis, 2023, 59(5):
                                                                   arXiv Preprint, arXiv: 1910.05453, 2019.
                 773–781.
                                                                [30] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolu-
              [9] 周刚. 藏语拉萨方言语音识别的研究 [D]. 兰州: 西北师范大
                                                                   tion-augmented transformer for speech recognition[J].
                 学, 2019.
                                                                   arXiv Preprint, arXiv: 2005.08100, 2020.
             [10] 南措吉. 基于循环神经网络的藏语语音识别技术研究 [D]. 西
                                                                [31] Dai Z, Yang Z, Yang Y, et al. Transformer-xl: Attentive
                 宁: 青海师范大学, 2019.
                                                                   language models beyond a fixed-length context[J]. arXiv
             [11] 乐建建. 藏语多任务多方言语音识别 [D]. 北京: 中央民族大
                                                                   Preprint, arXiv: 1901.02860, 2019.
                 学, 2020.
   147   148   149   150   151   152   153   154   155   156   157