Page 151 - 《应用声学》2025年第2期
P. 151
第 44 卷 第 2 期 王嘉文等: 藏语语声识别声学模型建模单元研究 411
ઢʸᮃጉ ઢʸᮃᓬ ᘩߚ͈ ᘩߚߚʸ 该模型无法有效收敛,但其他模型可以完成语声识
0.7
0.6 别任务,故该模型容易受到建模单元细粒度的影响。
0.5 基于拉丁音素的建模方法对卫藏方言和康巴
0.4
0.3 方言具有更好的建模能力,而基于拉丁音节的建模
0.2
0.1 方法对安多方言具有更好的建模能力。这是因为卫
0
LSTM DFCN WAVE MRDC CONF 藏方言和康巴方言的发音中含有音调,而安多方言
(a) ߷ܳவᝓ
的发音不含有音调。含有音调的发音可以更好地区
分音素,但组成的音节会有更多混淆信息;而不含有
ઢʸᮃጉ ઢʸᮃᓬ ᘩߚ͈ ᘩߚߚʸ
0.6 音调的发音所组成的音节易于区分,同时可以包含
0.5
0.4 更多约束信息。这样,有利于增加学习的信息量,使
0.3 得模型识别率上升。
0.2
0.1 基于藏字的建模单元对应的实验结果偏差,这
0
LSTM DFCN WAVE MRDC CONF 是由于本文的实验主要针对语声识别的声学模型
(b) Ӽᘩவᝓ 部分。藏字不仅代表了音素或音节,还代表了词素
或词。词素或词是比音素或音节高一个层次的单
ઢʸᮃጉ ઢʸᮃᓬ ᘩߚ͈ ᘩߚߚʸ
0.7 位,也是最小的语法单位。藏字可以提供更多的语
0.6
0.5 义和句法信息,这些信息对于语言模型来说是有用
0.4
0.3 的,但对于声学模型可能是多余或干扰的。针对这
0.2 个问题,后续将考虑使用声学模型与语言模型的混
0.1
0 合模型进行验证实验。实验结果如图 4所示。
LSTM DFCN WAVE MRDC CONF
(c) कࣅவᝓ 实验结果显示,对比在引言部分藏语语声识别
现状,实验数据接近且部分优于目前公开的藏语语
图 4 三大方言实验结果图
声识别成果,4 种基于拉丁和基于藏字的建模单元
Fig. 4 The experimental results graph of the three
major dialects 是可行的,基于拉丁音素的建模单元在卫藏方言和
康巴方言的语声识别声学模型中有最优的表现,基
从表 9中可以看出在卫藏方言和康巴方言的实
于拉丁音节的建模单元在安多方言的语声识别声
验中,基于拉丁音素的建模单元多次提升了模型
学模型中有最优的表现。
的识别效果,并且达到了最佳的效果,测试集 CER
分别为 16.95% 和 31.55%;在安多方言的实验中,基 3 结论
于拉丁音节的建模单元多次提升了模型的识别效
果,并且达到了最佳的效果,测试集CER为14.67%。 本文探讨了藏语语声识别声学模型的不同建
其中,Conformer-FC-CTC 模型在安多方言语声识 模单元,提出了一种改进的基于注意力机制的深度
别任务中表现最优,测试集 CER 为 14.67%;Lstm- 卷积藏语语声识别声学模型,并进行了对比实验。
CTC 模型对语声这种连续时序的建模能力十分强 目前国际的语声识别模型针对英语和汉语等主流
大,在三大方言中都有较好的识别效果;基于拉丁音 语言拥有优秀的识别效果,但本文研究重点在藏语
节的建模单元对模型的兼容性很好,没有出现学习 语声识别建模单元的选择,故采用近几年的藏语语
困难的情况。 声识别中主流的模型进行实验。在藏语语声识别数
拉丁音节相对于拉丁音素来说,更能反映语言 据集上,实验结果显示,基于拉丁音素的建模单元
的节奏和重音,也更容易划分和识别。拉丁音素相 在卫藏方言和康巴方言的语声识别声学模型中表
对于拉丁音节来说,更细致地描述了语声的声学特 现最佳,基于拉丁音节的建模单元在安多方言的语
征,但也更容易受到发音人、口音、噪声等因素的影 声识别声学模型中表现最佳,并且改进的基于注意
响。Conformer-FC-CTC模型出现学习困难的情况, 力机制的深度卷积藏语语声识别声学模型在安多