Page 148 - 《应用声学》2025年第2期
P. 148
408 2025 年 3 月
模单元训练声学模型同时将语言模型的输入也改 改进为直接采用藏字字丁作为建模单元,同时在每
为藏字字丁,但对字丁进行语声的标注需要专业知 个藏文音节后添加标签。基于藏字字丁建模单元的
识,同时也破坏了语声模型的句意信息约束。本文 标签示例如表2所示。
表 1 基于藏字构件的建模单元标签示例
Table 1 Example of modeling unit labeling based on Tibetan character components
类别 例文
原文 ང་གོའི་བོད་ ོངས་ ་བའི།
藏字构件 <sos> ཀ ྲ ུ ང <word> ག ོ འ ི <word> བ ོ ད <word> ལ ྗ ོ ང ས <word> ད ྲ <word> བ འ ི <word> <eos>
表 2 基于藏字字丁建模单元的标签示例
Table 2 Example of labeling modeling units based on Tibetan character D components
类别 例文
原文 ང་གོའི་བོད་ ོངས་ ་བའི།
藏字字丁 <sos> ང <word> གོ འི <word> བོ ད <word> ོ ང ས <word> <word> བ འི <word> <eos>
藏字音节是藏字的基本单元。由于藏字音节基 发音字典是语声识别中的一种重要的数据结
数过于庞大,以藏字音节为建模单元往往会导致标 构,它包含了从单词到音素之间的映射,用来连接声
签存在过于稀疏的问题,即存在许多在数据集中只 学模型和语言模型的。以卫藏方言为例,卫藏方言
出现一次的建模单元作为标签。避免这种问题需要 的部分发音字典如表4所示。
在数据构件时考虑避免标签稀疏类别不平衡,无法
表 4 卫藏方言的部分发音字典
通过后续的技术手段解决,故不对基于藏字音节的 Table 4 A partial pronunciation dictio-
建模单元进行验证。 nary of the Weizang dialect
对于藏语三大方言,基于藏字构件与藏字字丁
藏字音节 拉丁发音
的建模单元种类如表 3 所示。对应建模单元包含起
ིང ny i ng
始标识、结束标识、填充标识、音节标识、藏文构件 ེ j e
或藏文字丁。由于藏文文法相同,基于藏文构件的 བའི p ae
建模单元种类相同。基于藏文字丁的建模单元种类 ལ y ue
易被数据集构成影响,故其种类个数近似但不相同。 ལ x ue
མི m i
表 3 基于藏字的建模单元种类个数
Table 3 Number of types of modeling 在藏语识别中的发音字典是一个藏字音节对
units based on Tibetan 应一串拉丁音素,在发音字典中往往存在着多个藏
字音节对应同一串拉丁音素的情况,例如,在卫藏方
建模单元 藏语方言 种类个数
言中“ ེ”“འ ེད”“ཅེས” 等藏文音节对应“j e”的发音。由
卫藏 63
于藏文转拉丁存在多对一的映射关系,将藏文转换
藏字构件 安多 63
为拉丁发音后,相较于基于藏文的建模方法,数据集
康巴 63
的标签密度将得到一定提高。
卫藏 389
拉丁音素根据语声的自然属性划分出来的最
藏字字丁 安多 380
小语声单位。现阶段的研究中基于拉丁音素的建模
康巴 359
方法和基于藏字构件的建模方法面对着相似的问
1.2 基于拉丁的建模方法 题,输出的拉丁音素难以识别为拉丁音节。本文通
本文总结改进了基于拉丁音素和基于拉丁音 过在每个藏文音节转换后添加标签来解决。基于拉
节的2种建模方法。 丁音素建模单元的标签示例如表5所示。