Page 147 - 《应用声学》2025年第2期
P. 147

第 44 卷 第 2 期               王嘉文等: 藏语语声识别声学模型建模单元研究                                           407


             于注意力机制的深度卷积模型。通过实验结果得到                            南等省区,在中国境内使用的藏语分为卫藏方言、
             具有适用性更高同时识别效果更优秀的建模单元,                            康巴方言、安多方言           [25] ,它们的主要差异在于语
             从而有效提高藏语语声识别的研究效率。                                声方面,尤其是安多方言和卫藏方言之间的差异
                                                               较大,难以流利地交流,而康巴方言则介于两者之
             1 基于多种建模单元的端到端藏语语声                                间 [26] 。藏语三大方言文法相同但又存在极大的发
                识别
                                                               音差异,有很高的研究价值。藏语语声合成数据集
                 藏语属于汉藏语系藏缅语族藏语支,中国境                           中文本 “དཀའ་བའི་ ས་ ་ ོགས་ ི་བཟང་ངན་ ོགས་ཞེས་པ་བཞིན།”(汉译:患难
             内的藏语主要分布于青海、甘肃、西藏、四川、云                            与共)不同方言的发音可视化如图1所示。



                                              <ჰ໓>:þ                                                       ÿ(৤ᬲˁС)
                              ฉॎ                             ฉॎ                            ฉॎ
              0.50                            0.6                             0.4
              0.25                            0.4                             0.2
                 0                            0.2                              0
             -0.25                           -0.2 0                         -0.2
             -0.50
                                             -0.4                           -0.4
                 0  20000 40000 60000 80000 100000  0  20000 40000 60000 80000 100000  0  20000 40000 60000 80000 100000
                            Melᮠ៨                           Melᮠ៨                         Melᮠ៨
               60                             60                              60
               40                             40                              40
               20                             20                              20
                0                              0                               0
                 0   100  200  300  400  500    0   100  200  300  400  500     0   100  200  300  400  500
                         (a) ߷ܳவᝓ                        (b) कࣅவᝓ                         (c) Ӽᘩவᝓ

                                                图 1  同一文本的不同方言可视化
                                     Fig. 1 Visualization of different dialects in the same text

                 本文在藏语语声识别研究中利用藏字结构及                           息密度,同时以藏字构件为建模单元可以完成一部
             其发音信息,总结改进了 4 种针对藏语语声识别声                          分语声模型的任务,故本文对建模方法进行改进。
             学模型的建模单元,引入针对藏语改进的基于注意                            针对输出的藏字构件序列无法识别为藏字的问题,
             力机制的端到端语声识别模型测试识别效果,解决                            本文通过在每个藏文音节后添加标签来解决。例文
             了藏语语声识别任务中建模单元难以选择的问题。                            为“ ང་གོའི་བོད་ ོངས་ ་བའི།”(汉译:中国西藏网),后文标签示
                                                               例原文中藏文相同,基于藏字构件的建模单元标签
             1.1 基于藏字的建模方法
                                                               示例如表1所示。
                 本文总结改进了基于藏字构件,基于藏字字丁
             的2种建模方法。                                                           Ћᮃ
                 藏文是一种属于逻辑格语法体系的拼音文字,
             由单音节声韵母构成。根据藏文的文法著作《三十                                             ʽҫߚ
             颂》指出藏文字由 30 个辅音字母和 4 个元音字母以                               Ғҫߚ      ۳ߚ      Ցҫߚ    гՑҫߚ
             7 个基本构件结构按严谨的文法规则组合而成                     [27] 。
                                                                                ʾҫߚ
             藏字结构如图2所示。
                 藏字构件是组成藏文音节的最小单元。研究者                                           Ћᮃ
             普遍不使用藏字构件作为建模单元,而使用藏字构
             件作为识别单元的研究者通常只对藏语语声识别                                             图 2  藏字结构图
             的声学模型进行研究,这是因为语言模型对输入的                                 Fig. 2 Tibetan character structure diagram
             要求是以拉丁音节为建模单元,并且输出的藏字构                                藏字字丁是藏文字中藏文字符纵向书写形成
             件难以识别为藏字音节。但藏字构件包含更高的信                            的叠置字符。有研究者以藏字字丁的拉丁发音为建
   142   143   144   145   146   147   148   149   150   151   152