Page 151 - 《应用声学》2025年第2期
P. 151

第 44 卷 第 2 期               王嘉文等: 藏语语声识别声学模型建模单元研究                                           411


                     ઢʸᮃጉ      ઢʸᮃᓬ     ᘩߚ౞͈      ᘩߚߚʸ         该模型无法有效收敛,但其他模型可以完成语声识
               0.7
               0.6                                             别任务,故该模型容易受到建模单元细粒度的影响。
               0.5                                                 基于拉丁音素的建模方法对卫藏方言和康巴
               0.4
               0.3                                             方言具有更好的建模能力,而基于拉丁音节的建模
               0.2
               0.1                                             方法对安多方言具有更好的建模能力。这是因为卫
                 0
                   LSTM    DFCN   WAVE   MRDC    CONF          藏方言和康巴方言的发音中含有音调,而安多方言
                                (a) ߷ܳவᝓ
                                                               的发音不含有音调。含有音调的发音可以更好地区
                                                               分音素,但组成的音节会有更多混淆信息;而不含有
                     ઢʸᮃጉ      ઢʸᮃᓬ     ᘩߚ౞͈      ᘩߚߚʸ
               0.6                                             音调的发音所组成的音节易于区分,同时可以包含
               0.5
               0.4                                             更多约束信息。这样,有利于增加学习的信息量,使
               0.3                                             得模型识别率上升。
               0.2
               0.1                                                 基于藏字的建模单元对应的实验结果偏差,这
                0
                   LSTM    DFCN   WAVE   MRDC    CONF          是由于本文的实验主要针对语声识别的声学模型
                                (b) Ӽᘩவᝓ                       部分。藏字不仅代表了音素或音节,还代表了词素
                                                               或词。词素或词是比音素或音节高一个层次的单
                     ઢʸᮃጉ      ઢʸᮃᓬ     ᘩߚ౞͈      ᘩߚߚʸ
               0.7                                             位,也是最小的语法单位。藏字可以提供更多的语
               0.6
               0.5                                             义和句法信息,这些信息对于语言模型来说是有用
               0.4
               0.3                                             的,但对于声学模型可能是多余或干扰的。针对这
               0.2                                             个问题,后续将考虑使用声学模型与语言模型的混
               0.1
                 0                                             合模型进行验证实验。实验结果如图 4所示。
                   LSTM    DFCN   WAVE   MRDC    CONF
                                (c) कࣅவᝓ                           实验结果显示,对比在引言部分藏语语声识别
                                                               现状,实验数据接近且部分优于目前公开的藏语语
                         图 4  三大方言实验结果图
                                                               声识别成果,4 种基于拉丁和基于藏字的建模单元
               Fig. 4 The experimental results graph of the three
               major dialects                                  是可行的,基于拉丁音素的建模单元在卫藏方言和
                                                               康巴方言的语声识别声学模型中有最优的表现,基
                 从表 9中可以看出在卫藏方言和康巴方言的实
                                                               于拉丁音节的建模单元在安多方言的语声识别声
             验中,基于拉丁音素的建模单元多次提升了模型
                                                               学模型中有最优的表现。
             的识别效果,并且达到了最佳的效果,测试集 CER
             分别为 16.95% 和 31.55%;在安多方言的实验中,基                   3 结论
             于拉丁音节的建模单元多次提升了模型的识别效

             果,并且达到了最佳的效果,测试集CER为14.67%。                           本文探讨了藏语语声识别声学模型的不同建
             其中,Conformer-FC-CTC 模型在安多方言语声识                    模单元,提出了一种改进的基于注意力机制的深度
             别任务中表现最优,测试集 CER 为 14.67%;Lstm-                   卷积藏语语声识别声学模型,并进行了对比实验。
             CTC 模型对语声这种连续时序的建模能力十分强                           目前国际的语声识别模型针对英语和汉语等主流
             大,在三大方言中都有较好的识别效果;基于拉丁音                           语言拥有优秀的识别效果,但本文研究重点在藏语
             节的建模单元对模型的兼容性很好,没有出现学习                            语声识别建模单元的选择,故采用近几年的藏语语
             困难的情况。                                            声识别中主流的模型进行实验。在藏语语声识别数
                 拉丁音节相对于拉丁音素来说,更能反映语言                          据集上,实验结果显示,基于拉丁音素的建模单元
             的节奏和重音,也更容易划分和识别。拉丁音素相                            在卫藏方言和康巴方言的语声识别声学模型中表
             对于拉丁音节来说,更细致地描述了语声的声学特                            现最佳,基于拉丁音节的建模单元在安多方言的语
             征,但也更容易受到发音人、口音、噪声等因素的影                           声识别声学模型中表现最佳,并且改进的基于注意
             响。Conformer-FC-CTC模型出现学习困难的情况,                    力机制的深度卷积藏语语声识别声学模型在安多
   146   147   148   149   150   151   152   153   154   155   156