Page 146 - 《应用声学》2025年第2期
P. 146
406 2025 年 3 月
言测试 wer 达到 35.51%;黄志东 [13] 采用拉丁音节
0 引言
作为建模单元,探寻卷积网络在语声识别的应用,
机器学习是人工智能的核心,是计算机具有智 提出含 dropout 的 CTC-CNN(ReLU)-BN 网络,在
能的根本途径。近年来,机器学习领域取得了飞速 藏语安方言测试 wer 达到 15.4%;孙婧雯 [14] 采用拉
的发展,特别是在表征学习、神经网络、深度学习等 丁音素作为建模单元,提出混合 CTC-Attention 模
方面,展现了强大的能力和潜力 [1] 。然而,机器学习 型,在藏语安多方言测试 wer 达到 31.5%。2021 年,
的应用并不局限于英语 [2] 和汉语 [3] 等主流语言,对 高飞 [15] 采用拉丁音节作为建模单元,将视频特征
于少数民族语言的语声识别技术也有着重要的意 和语声特征融合,提出 AV-Wavenet-CTC-A-I-10模
义和价值。藏语是中国少数民族语言之一,也是世 型,在藏语卫藏方言测试 wer 达到 42.7%。同年,侯
界上最古老、最独特、最富有魅力的语言之一。藏语 苗苗 [16] 采用拉丁音素作为建模单元,将多种语声
语声识别技术是指利用机器学习方法,将藏语口头 特征融合,提出基于 CNN 的多特征声学模型,在
表达转换成为文字或者其他形式的技术 [4] 。藏语语 藏语卫藏方言测试 wer 达到 24.64%;算太本 [17] 采
声识别技术不仅可以促进藏族人民与其他民族人 用藏字构建,藏字音节、拉丁音素作为建模单元,
民之间的交流和沟通,也可以保护和传承藏族文化 使用 CNN-CTC 模型,在藏语卫藏方言和藏语安
和历史 [5] 。目前,国内外对于藏语语声识别技术的 多方言混合数据集中,测试 wer 达到 19.26%;康
研究还处于起步阶段,存在着许多挑战和困难。例 杰 [18] 将预训练模型和循环神经网络结合,提出
如:藏语数据量稀缺、标注质量低下、方言差异大、 Pre-Training+BiLstm+Attention 模型,在藏语安
声调复杂等 [6] 。公开的藏语数据集 [7−8] 较少,且对 多方言测试 wer 达到 26.6%;杨晓东 [5] 采用 Tran-
藏语语声识别建模单元的选择也没有主流的研究 former 模型,在藏语卫藏方言测试 wer 达到 25.8%。
结论。 2022 年,贡保加 [19] 采用拉丁音素、拉丁音节、藏字
近年来,研究者建立了许多藏语语声识别方 字丁作为建模单元,在模型中引入多尺度特征融合
法,端到端的藏语语声识别也在逐渐成为主流方 的思想,提出MRDCNN-CTC模型在藏语安多方言
法,运用注意力机制 (Attention)、卷积神经网路 测试wer达到18.67%。
(Convolutional neural networks, CNN)、循环神经 目前,在主流语言中语声识别技术已经十
网络 (Recurrent neural network, RNN)、长短期记 分成熟,针对 LibriSpeech 英语数据集 [20] ,2021
忆网络 (Long short-term memory, LSTM)、双向长 年,Chung 等 [2] 将 wav2vec 模型 [21] 与 HuBERT 模
短期记忆网络 (Bi-directional LSTM, BLSTM)、连 型 [22] 结合得到 w2v-beart 模型,使得 wer 为 1.4%。
接时序分类(Connectionist temporal classification, 针 对 AISHELL-1 汉 语 数 据 集 [23] , 2022 年 Zhou
CTC) 等技术。2019 年,周刚 [9] 采用拉丁音素作为 等 [24] 使用基于多模型多任务预训练的 encoder-
建模单元,在模型中引入注意力机制,提出了混 decoder模型,在汉语测试wer达到1.9%。藏语与主
合 CTC-Attention 模型,在藏语卫藏方言上测试 流语言语声的识别研究差距还很大,建模单元的研
wer 达到 38.64%。同年,南措吉 [10] 采用拉丁音素 究就是相关语声任务的关键。
作为建模单元,在模型中引入循环神经网络,提出 以上藏语语声识别相关研究基于藏语的元音
了BLstm-CTC模型和RNN-BLstm-ReLU模型,在 辅音发音特点,结合数据集本身结构,进行建模单元
藏语安多方言测试 ler分别达到了 0 和1.14%。2020 设计。而研究者多数选择自己构建数据集,无法直
年,乐建建 [11] 采用藏字音节作为建模单元,在模 接客观地对模型性能进行对比,导致实验结果无法
型中引入空洞卷积,使用 Wavenet-CTC模型,在藏 相互验证相互支持 [6] 。本文将总结并改进 4 种藏语
语卫藏方言测试 wer 达到 28.83%,在藏语康巴方言 语声识别声学模型建模单元,在公开的藏语数据集
测试 wer 达到 62.56%,在藏语安多方言测试 wer 达 上使用5种藏语识别声学模型进行消融实验,其中4
到 17.6%。同年,郭龙银等 [12] 采用拉丁音素作为 种是其他研究者提出的 Lstm-CTC 模型、DFCNN-
建模单元,在模型中将卷积网络和循环神经网络 CTC模型、Wavenet-CTC模型、MRDCNN-CTC模
结合,提出 CNN-BLstm-CTC 模型,在藏语卫藏方 型,还有 1 种采用针对藏语语声识别进行改进的基