Page 146 - 《应用声学》2025年第2期
P. 146

406                                                                                  2025 年 3 月


                                                               言测试 wer 达到 35.51%;黄志东         [13]  采用拉丁音节
             0 引言
                                                               作为建模单元,探寻卷积网络在语声识别的应用,
                 机器学习是人工智能的核心,是计算机具有智                          提出含 dropout 的 CTC-CNN(ReLU)-BN 网络,在
             能的根本途径。近年来,机器学习领域取得了飞速                            藏语安方言测试 wer 达到 15.4%;孙婧雯             [14]  采用拉
             的发展,特别是在表征学习、神经网络、深度学习等                           丁音素作为建模单元,提出混合 CTC-Attention 模
             方面,展现了强大的能力和潜力              [1] 。然而,机器学习          型,在藏语安多方言测试 wer 达到 31.5%。2021 年,
             的应用并不局限于英语           [2]  和汉语 [3]  等主流语言,对        高飞   [15]  采用拉丁音节作为建模单元,将视频特征
             于少数民族语言的语声识别技术也有着重要的意                             和语声特征融合,提出 AV-Wavenet-CTC-A-I-10模
             义和价值。藏语是中国少数民族语言之一,也是世                            型,在藏语卫藏方言测试 wer 达到 42.7%。同年,侯
             界上最古老、最独特、最富有魅力的语言之一。藏语                           苗苗   [16]  采用拉丁音素作为建模单元,将多种语声
             语声识别技术是指利用机器学习方法,将藏语口头                            特征融合,提出基于 CNN 的多特征声学模型,在
             表达转换成为文字或者其他形式的技术                   [4] 。藏语语      藏语卫藏方言测试 wer 达到 24.64%;算太本               [17]  采
             声识别技术不仅可以促进藏族人民与其他民族人                             用藏字构建,藏字音节、拉丁音素作为建模单元,
             民之间的交流和沟通,也可以保护和传承藏族文化                            使用 CNN-CTC 模型,在藏语卫藏方言和藏语安
             和历史   [5] 。目前,国内外对于藏语语声识别技术的                      多方言混合数据集中,测试 wer 达到 19.26%;康
             研究还处于起步阶段,存在着许多挑战和困难。例                            杰 [18]  将预训练模型和循环神经网络结合,提出
             如:藏语数据量稀缺、标注质量低下、方言差异大、                           Pre-Training+BiLstm+Attention 模型,在藏语安
             声调复杂等     [6] 。公开的藏语数据集        [7−8]  较少,且对       多方言测试 wer 达到 26.6%;杨晓东           [5]  采用 Tran-
             藏语语声识别建模单元的选择也没有主流的研究                             former 模型,在藏语卫藏方言测试 wer 达到 25.8%。

             结论。                                               2022 年,贡保加     [19]  采用拉丁音素、拉丁音节、藏字
                 近年来,研究者建立了许多藏语语声识别方                           字丁作为建模单元,在模型中引入多尺度特征融合
             法,端到端的藏语语声识别也在逐渐成为主流方                             的思想,提出MRDCNN-CTC模型在藏语安多方言
             法,运用注意力机制 (Attention)、卷积神经网路                      测试wer达到18.67%。
             (Convolutional neural networks, CNN)、循环神经             目前,在主流语言中语声识别技术已经十
             网络 (Recurrent neural network, RNN)、长短期记           分成熟,针对 LibriSpeech 英语数据集             [20] ,2021
             忆网络 (Long short-term memory, LSTM)、双向长            年,Chung 等   [2]  将 wav2vec 模型  [21]  与 HuBERT 模
             短期记忆网络 (Bi-directional LSTM, BLSTM)、连             型 [22]  结合得到 w2v-beart 模型,使得 wer 为 1.4%。
             接时序分类(Connectionist temporal classification,       针 对 AISHELL-1 汉 语 数 据 集      [23] , 2022 年 Zhou
             CTC) 等技术。2019 年,周刚        [9]  采用拉丁音素作为           等 [24]  使用基于多模型多任务预训练的 encoder-
             建模单元,在模型中引入注意力机制,提出了混                             decoder模型,在汉语测试wer达到1.9%。藏语与主
             合 CTC-Attention 模型,在藏语卫藏方言上测试                     流语言语声的识别研究差距还很大,建模单元的研
             wer 达到 38.64%。同年,南措吉         [10]  采用拉丁音素         究就是相关语声任务的关键。
             作为建模单元,在模型中引入循环神经网络,提出                                以上藏语语声识别相关研究基于藏语的元音
             了BLstm-CTC模型和RNN-BLstm-ReLU模型,在                   辅音发音特点,结合数据集本身结构,进行建模单元
             藏语安多方言测试 ler分别达到了 0 和1.14%。2020                   设计。而研究者多数选择自己构建数据集,无法直
             年,乐建建     [11]  采用藏字音节作为建模单元,在模                   接客观地对模型性能进行对比,导致实验结果无法
             型中引入空洞卷积,使用 Wavenet-CTC模型,在藏                      相互验证相互支持         [6] 。本文将总结并改进 4 种藏语
             语卫藏方言测试 wer 达到 28.83%,在藏语康巴方言                     语声识别声学模型建模单元,在公开的藏语数据集
             测试 wer 达到 62.56%,在藏语安多方言测试 wer 达                  上使用5种藏语识别声学模型进行消融实验,其中4
             到 17.6%。同年,郭龙银等          [12]  采用拉丁音素作为           种是其他研究者提出的 Lstm-CTC 模型、DFCNN-
             建模单元,在模型中将卷积网络和循环神经网络                             CTC模型、Wavenet-CTC模型、MRDCNN-CTC模
             结合,提出 CNN-BLstm-CTC 模型,在藏语卫藏方                     型,还有 1 种采用针对藏语语声识别进行改进的基
   141   142   143   144   145   146   147   148   149   150   151