Page 138 - 《应用声学》2023年第2期
P. 138

326                                                                                  2023 年 3 月


                                                               覆盖未知语言的现象,在字母转音素过程中,结合藏
                                  ܦඇ
                                                               语语音合成的实际需求,并充分考虑藏语独有的构
                  Ғҫߚ       ʽҫߚ        ۳ߚ        ʾҫߚ
                                                               词结构及其现代藏语文本的实际问题,对部分特殊
                     гՑҫߚ         Ցҫߚ       ŀ                  构字形式的字形转写音素进行了有效处理。
                                          Ł       Ћᮃ               根据上述转写方法,本文最终通过计算机
                     ՑЋᮃ          Ց۳ߚ
                                                               程序对用于训练及测试的数据 ——5000 余藏语
                                  ᮄඇ
                                                               句子进行自动转写测试。经人工校对方式,分
                          图 1  藏文音节书写顺序
                                                               析其转写结果,藏语文本及音节书写规范的情
                   Fig. 1 Writing order of Tibetan syllables
                                                               况下,本自动转写方法准确率达 99% 以上。实例
                 另外,随着语言的不断发展,在现代藏语文本                          “                                     ” (汉译:
             中普遍出现很多梵音藏字、缩写字等不符合传统藏                            29日,李克强会见斯里兰卡总统。)的自动转写结果
             语拼写文法的字形,因此该转写规则为了尽可能地                            如图2所示。

                          <  ৏ ࿻ ਕ ᆀ >˖ ༄༅། །ཚས་༢༩ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང།
                          < 亴༴⨶वᤜ > ˖
                               1< ⢩ ↺ ᆇ ㅖ>˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང།-----> ༢༩
                                           ˄ᮠᆇㅖਧĀ༢༩ā䖜ᦒᡀ㯿᮷Āཉི་4་5་ད6ā˅
                               2< 㿴  㤳  ॆ >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལའི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།-----> ང།
                                           ˄㿴㤳㯿᮷ਕᵛㅖਧ˅
                               3< ㍗  㕙  䇽 >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།-----> འི
                                           ˄䇶࡛㍗㕙䇽Āའིāᒦڊ᣶࠶༴⨶˅
                               4< ਸ  փ  ᆇ >˖༄༅། །ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།------> གྷ
                                           ˄ሩ਼ᆇн਼⸱Āབྷā䘋㹼㕆⸱㔏а˅
                               5< ᰐ䈝丣ㅖਧ >˖§§ˈˈཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།----->༄༅། །
                                           ˄䇶࡛ᰐᇎ䱵ਁ丣ⲴㅖਧĀ༄༅། །āᒦڊнҸ䖜߉༴⨶˅
                          <   亴༴⨶㔃᷌  >˖ཚས་ཉི་4་5་ད6་ཉིན་ལིས་ཁི་ཆང་གིས་སིང་གྷ་ལ་འི་.ང་/ང་དང་མཇལ་འ3ད་གནང་།
                          <丣㍐䖜߉㔃᷌>˖tshes nyi shu rtsa dgu nyin lis khi chang gis sing gha lavi tsung
                                       thung dang mjal vphrad gnang.

                                                    图 2  实例的转写结果
                                            Fig. 2 Transcribing results of an example
                 用于基于 “端到端” 藏语语音合成实验数据的                        2 端到端语音合成模型的架构
             最终文本为由藏文转写的拉丁文本格式,语音库
                                                                   在“引言” 中讨论传统语音合成时已经知道,当
             语料片段如图 3 所示。其中 “tibet2896, tibet2897,
                                                               出现海量数据时,基于 HMM遇到瓶颈。为此,后来
             · · · · · · ,等” 是语句编号,分别跟随着藏语语句的拉
                                                               提出基于 DNN 模型的语音合成方法,该模型的前
             丁文转写文本。本实验对转写的拉丁文本未进行藏
                                                               端文本分析模块和 HMM 是一样的,不同的是采用
             语声母、韵母等音素分割处理。
                                                               DNN 取代HMM来生成每个音素的时长、基频和频
                                                               谱包络    [13−15] 。由此可知,无论是基于 HMM 还是
                                                               DNN 模型,“统计参数模型” 的语音合成方法最主
                                                               要问题就在于前端文本的处理,而对于藏语语音合
                                                               成系统来说,由于语言本身的复杂特性及其资源的
                                                               受限,前端语言模型一直得不到有效的处理                     [16−17] 。
                                                               基于统计参数的语音合成流程如图4所示。

                 图 3  藏语语音合成语音库拉丁文标注结果片段                           近年来,基于神经网络模型在国内外很多语
               Fig. 3 Text corpus effect of Tibetan text-to-speech  种的语音合成中取得了长足发展,其中,基于注意
   133   134   135   136   137   138   139   140   141   142   143