Page 150 - 《应用声学》2025年第2期
P. 150
410 2025 年 3 月
其中,S 代表替换的个数,D 代表删除的个数,I 代表
2 实验与分析
插入的个数,N 代表总字数。
2.1 实验设置 表 8 藏语三大方言多种建模方法的数据表
Table 8 A data table of various modeling meth-
本 文 使 用 4 种 主 流 的 藏 语 语 声 识 别 模
ods for the three major dialects of Tibetan
型 Lstm-CTC 模 型 [10] 、 DFCNN-CTC 模 型 [13] 、
Wavenet-CTC 模型 [15] 、MRDCNN-CTC 模型 [19] 藏语 建模方法 训练集 测试集
以及 Conformer-FC-CTC 模型在藏语语声识别数 方言 文本数据个数 时长/h 文本数据个数 时长/h
拉丁音素 21806 37.7 2418 4.2
1
据集 对基于拉丁音素、基于拉丁音节、基于藏字构
拉丁音节 19900 34.2 2199 3.8
件、基于藏字字丁的建模单元进行实验。实验采用 拉萨
藏字构件 21820 36.6 2413 4.1
的5种模型均为端到端语声识别模型,但相较于前4 藏字字丁 21186 37.8 2385 4.1
种模型,Conformer-FC-CTC 模型采用了基于注意 拉丁音素 16912 26.4 1818 2.8
力机制的深度可分离卷积模块。实验语料库包含 安多 拉丁音节 12851 19.7 1452 2.1
56717个三大藏语方言语声数据的录音,来自100个 藏字构件 16902 26.3 1832 2.8
藏字字丁 16337 25.4 1767 2.7
说话人,经过统计实际总的记录时间约为96.8 h,数
拉丁音素 12127 22.1 1318 2.4
据库的总大小为10.4 GB。 拉丁音节 9342 16.7 1095 1.9
康巴
本文均采用 80 维的 Mel-Spectrogram 作为声 藏字构件 12093 22.0 1351 2.4
学特征。 藏语语声识别声学模型训练基于 Py- 藏字字丁 11307 20.5 1287 2.3
Torch工具在1张3080-10G GPU 上进行,并采用了 2.2 实验结果与分析
自适应矩估计算法 (Adaptive moment estimation, 本文采用 4 种建模单元,对藏语的 3 种方言分
Adam)、初始学习率 0.0001 的方式进行训练,整个 别进行了 5 种语声识别声学模型的实验,实验结果
训练过程数据共计迭代300轮。 如表 9所示,数据可视化如图4所示。
为了研究不同的建模单元对藏语的3 种方言的
表 9 三大方言实验结果表
语声识别效果的影响,本文分别采用了 4 种建模单 Table 9 The experimental results table of
元对数据集进行标注。然而,发现标签存在过于稀 the three major dialects
疏的问题,即有许多建模单元只在数据集中出现一
测试集 CER/%
次。这是因为在构建数据集时没有考虑到标签稀疏 藏语
模型 拉丁 拉丁 藏字 藏字
和类别不平衡的问题,这会降低模型在测试数据上 方言 音素 音节 构件 字丁
的泛化能力。为了解决这个问题,本文对数据集进 Lstm-CTC 16.95 26.14 24.2 22.84
行了过滤,只保留了标签出现频率超过 10 次的数 DFCNN-CTC 22.96 34.7 35.09 40.97
卫藏 Wavenet-CTC 30.67 52.82 44.39 40.23
据。同时,将数据集按照9:1的比例划分为训练集和
MRDCNN-CTC 22.1 33.57 32.39 38.24
测试集。实验所用数据如表 8所示。 Conformer-FC-CTC 22.32 21.64 20.69
评价指标采用字错率 (Character error rate, Lstm-CTC 21.4 17.07 25.49 58.31
CER),即为了使识别出来的词序列和标准的词序 DFCNN-CTC 33.28 23.61 45.96 40.16
列之间保持一致,需要进行替换、删除或者插入某 安多 Wavenet-CTC 36.97 37.86 45.43 45.66
MRDCNN-CTC 32.1 22.28 44.62 35.51
些词,这些插入、替换或删除的词的总个数,除以标
Conformer-FC-CTC 14.67
准的词序列中词的总个数的百分比。CER 是用来
Lstm-CTC 37.55 46.36 36.3 38.77
评价预测文本与标准文本之间错误率,故词错率越 DFCNN-CTC 42.07 51.58 50.26 41.6
小越好。CER计算公式如下: 康巴 Wavenet-CTC 42.35 66.39 48.34 50.7
MRDCNN-CTC 31.55 51.91 46.35 42.54
CER = (S + D + I)/N, (5) Conformer-FC-CTC 45.82 37.94 38.34
1 藏语语音识别数据集. (V1). [西北民族大学], 2022-08-23. [国家基础学科公共科学数据中心],
https://cstr.cn/16666.11.nbsdc.ertz0y0o