Page 152 - 《应用声学》2025年第2期
P. 152
412 2025 年 3 月
方言中达到了目前最优的识别效果,测试集CER为 [12] 郭龙银, 扎西多吉, 尚慧杰, 等. 基于 LSTM 的藏语语音识
14.67%。 别 [J]. 电脑知识与技术, 2020,16(4): 154–155.
[13] 黄志东. 基于深度卷积神经网络的藏语语音识别研究 [D]. 西
根据藏语语声识别研究的现状,本文比较了 4
宁: 青海师范大学, 2020.
种建模单元的效果,为藏语语声识别任务中建模单 [14] 孙婧雯. 基于深度学习的藏语安多方言语音识别的研究 [D].
元的选择提供了参考。未来将在标签平衡的数据集 兰州: 西北师范大学, 2020.
[15] 高飞. 藏语拉萨话音视频语音识别研究 [D]. 北京: 中央民族
上验证基于藏字音节的建模单元的性能。建模单元 大学, 2021.
只是语声识别任务的第一步,相较于汉语和英语的 [16] 侯苗苗. 基于 CNN 多特征融合的藏语语音识别的研究 [D].
语声识别成果,藏语语声识别还存在很大的差距, 兰州: 西北师范大学, 2021.
[17] 算太本. 基于深度学习的安多藏语语音识别技术研究 [D]. 西
进一步提升模型的区分度和鲁棒性,研究声学模型 宁: 青海师范大学, 2021.
和语言模型的混合模型,将是下一阶段的研究工作 [18] 康杰. 基于深度学习的端到端安多藏语语音识别系统设
重点。 计 [D]. 西宁: 青海师范大学, 2021.
[19] 贡保加. 基于 MRDCNN _ CTC&Transformer 的安多藏语
语音识别技术研究 [D]. 西宁: 青海师范大学, 2022.
参 考 文 献
[20] Panayotov V, Chen G, Povey D, et al. Librispeech: An
asr corpus based on public domain audio books[C]//2015
[1] Li J. Recent advances in end-to-end automatic speech
IEEE international conference on acoustics, speech and
recognition[J]. APSIPA Transactions on Signal and Infor-
signal processing (ICASSP). IEEE, 2015: 5206–5210.
mation Processing, 2022, 11(1): e8.
[21] Schneider S, Baevski A, Collobert R, et al. wav2vec: Un-
[2] Chung Y A, Zhang Y, Han W, et al. W2v-bert: Com-
supervised pre-training for speech recognition[J]. arXiv
bining contrastive learning and masked language model-
Preprint, arXiv: 1904.05862, 2019.
ing for self-supervised speech pre-training[C]//2021 IEEE
[22] Hsu W N, Bolte B, Tsai Y H H, et al. Hubert:
Auto-matic Speech Recognition and Understanding Work-
Self-supervised speech representation learning by masked
shop (ASRU). IEEE, 2021: 244–250.
prediction of hidden units[J]. IEEE/ACM Transactions
[3] Liu Y, Li T, Zhang P, et al. Improved conformer-based
on Audio, Speech, and Language Processing, 2021, 29:
end-to-end speech recognition using neural architecture
3451–3460.
search[J]. arXiv Preprint, arXiv: 2104.05390, 2021.
[23] Bu H, Du J, Na X, et al. Aishell-1: An open-source
[4] 王福钊, 周雁. 藏语语音识别研究进展和展望 [J]. 计算机系统
mandarin speech corpus and a speech recognition base-
应用, 2020, 29(3): 29–38.
line[C]//2017 20th conference of the oriental chapter
Wang Fuzhao, Zhou Yan. Progress and prospects of ti-
of the international coordinating committee on speech
betan speech recognition research[J]. Computer Systems
databases and speech I/O systems and assessment (O-
& Applications, 2020, 29(3): 29–38.
COCOSDA). IEEE, 2017: 1–5.
[5] 杨晓东. 在线藏语语音识别系统的研究 [D]. 兰州: 西北师范
[24] Zhou X, Wang J, Cui Z, et al. Mmspeech: Multi-modal
大学, 2021.
multi-task encoder-decoder pre-training for speech recog-
[6] 边巴旺堆, 王希, 王君堡. 藏语语音识别研究进展综述 [J]. 高
nition[J]. arXiv Preprint, arXiv: 2212.00500, 2022.
原科学研究, 2022, 6(4): 76–84.
[25] 瞿霭堂. 藏族的语言和文字 [J]. 中国藏学, 1992(3): 139–155.
Bianba Wangdui, Wang Xi, Wang Junbao. An overview
[26] 根呷翁姆. 藏语的方言分类及其特点 [J]. 中国语言学研究,
of the research progress of tibetan speech recognition[J].
2022(2): 247–261.
Plateau Science Research, 2022, 6(4): 76–84.
Genga Wengmu. The classification and characteristics of
[7] 仁曾卓玛, 朱丽平. 藏语方言语音合成数据集 [J]. 中国科学数
Tibetan dialects[J]. Journal of Studies on Languages in
据 (中英文网络版), 2022, 7(2): 24–33.
China, 2022(2): 247–261.
Renzeng Zhuoma, Zhu Liping. A dataset of Tibetan
[27] 高定国, 珠杰. 藏文信息处理的原理与应用 [M]. 成都: 西南交
dialect speech synthesis[J]. China Scientific Data, 2022,
通大学出版社, 2013.
7(2): 24–33.
[28] Oord A, Li Y, Vinyals O. Representation learning with
[8] 彭毛扎西, 才智杰, 才让卓玛. 藏语情感语音数据库构建 [J].
contrastive predictive coding[J]. arXiv Preprint, arXiv:
北京大学学报 (自然科学版), 2023, 59(5): 773–781.
1807.03748, 2018.
Pengmao Zhaxi, Cai Zhijie, Cairang Zhuoma. Construc-
[29] Baevski A, Schneider S, Auli M. vq-wav2vec: Self-
tion of Tibetan emotional speech database[J]. Acta Scien-
supervised learning of discrete speech representa-tions[J].
tiarum Naturalium Universitatis Pekinensis, 2023, 59(5):
arXiv Preprint, arXiv: 1910.05453, 2019.
773–781.
[30] Gulati A, Qin J, Chiu C C, et al. Conformer: Convolu-
[9] 周刚. 藏语拉萨方言语音识别的研究 [D]. 兰州: 西北师范大
tion-augmented transformer for speech recognition[J].
学, 2019.
arXiv Preprint, arXiv: 2005.08100, 2020.
[10] 南措吉. 基于循环神经网络的藏语语音识别技术研究 [D]. 西
[31] Dai Z, Yang Z, Yang Y, et al. Transformer-xl: Attentive
宁: 青海师范大学, 2019.
language models beyond a fixed-length context[J]. arXiv
[11] 乐建建. 藏语多任务多方言语音识别 [D]. 北京: 中央民族大
Preprint, arXiv: 1901.02860, 2019.
学, 2020.