Page 138 - 《应用声学》2023年第2期
P. 138
326 2023 年 3 月
覆盖未知语言的现象,在字母转音素过程中,结合藏
ܦඇ
语语音合成的实际需求,并充分考虑藏语独有的构
Ғҫߚ ʽҫߚ ۳ߚ ʾҫߚ
词结构及其现代藏语文本的实际问题,对部分特殊
гՑҫߚ Ցҫߚ ŀ 构字形式的字形转写音素进行了有效处理。
Ł Ћᮃ 根据上述转写方法,本文最终通过计算机
ՑЋᮃ Ց۳ߚ
程序对用于训练及测试的数据 ——5000 余藏语
ᮄඇ
句子进行自动转写测试。经人工校对方式,分
图 1 藏文音节书写顺序
析其转写结果,藏语文本及音节书写规范的情
Fig. 1 Writing order of Tibetan syllables
况下,本自动转写方法准确率达 99% 以上。实例
另外,随着语言的不断发展,在现代藏语文本 “ ” (汉译:
中普遍出现很多梵音藏字、缩写字等不符合传统藏 29日,李克强会见斯里兰卡总统。)的自动转写结果
语拼写文法的字形,因此该转写规则为了尽可能地 如图2所示。
< ਕ ᆀ >˖ ༄༅། །ཚས་༢༩ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང།
< 亴༴⨶वᤜ > ˖
1< ⢩ ↺ ᆇ ㅖ>˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང།-----> ༢༩
˄ᮠᆇㅖਧĀ༢༩ā䖜ᦒᡀ㯿᮷Āཉི་4་5་ད6ā˅
2< 㿴 㤳 ॆ >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།-----> ང།
˄㿴㤳㯿᮷ਕᵛㅖਧ˅
3< ㍗ 㕙 䇽 >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།-----> འི
˄䇶࡛㍗㕙䇽Āའིāᒦڊ࠶༴⨶˅
4< ਸ փ ᆇ >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།------> གྷ
˄ሩ਼ᆇн਼⸱Āབྷā䘋㹼㕆⸱㔏а˅
5< ᰐ䈝丣ㅖਧ >˖§§ˈˈཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།----->༄༅། །
˄䇶࡛ᰐᇎ䱵ਁ丣ⲴㅖਧĀ༄༅། །āᒦڊнҸ䖜߉༴⨶˅
< 亴༴⨶㔃᷌ >˖ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།
<丣㍐䖜߉㔃᷌>˖tshes nyi shu rtsa dgu nyin lis khi chang gis sing gha lavi tsung
thung dang mjal vphrad gnang.
图 2 实例的转写结果
Fig. 2 Transcribing results of an example
用于基于 “端到端” 藏语语音合成实验数据的 2 端到端语音合成模型的架构
最终文本为由藏文转写的拉丁文本格式,语音库
在“引言” 中讨论传统语音合成时已经知道,当
语料片段如图 3 所示。其中 “tibet2896, tibet2897,
出现海量数据时,基于 HMM遇到瓶颈。为此,后来
· · · · · · ,等” 是语句编号,分别跟随着藏语语句的拉
提出基于 DNN 模型的语音合成方法,该模型的前
丁文转写文本。本实验对转写的拉丁文本未进行藏
端文本分析模块和 HMM 是一样的,不同的是采用
语声母、韵母等音素分割处理。
DNN 取代HMM来生成每个音素的时长、基频和频
谱包络 [13−15] 。由此可知,无论是基于 HMM 还是
DNN 模型,“统计参数模型” 的语音合成方法最主
要问题就在于前端文本的处理,而对于藏语语音合
成系统来说,由于语言本身的复杂特性及其资源的
受限,前端语言模型一直得不到有效的处理 [16−17] 。
基于统计参数的语音合成流程如图4所示。
图 3 藏语语音合成语音库拉丁文标注结果片段 近年来,基于神经网络模型在国内外很多语
Fig. 3 Text corpus effect of Tibetan text-to-speech 种的语音合成中取得了长足发展,其中,基于注意