Page 137 - 《应用声学》2023年第2期
P. 137
第 42 卷 第 2 期 拉巴顿珠等: 端到端的藏语语音合成方法 325
and a subjective evaluation of the naturalness of the synthetic speech, the result is shown, that the application
of Tacotron2 in the Tibetan language synthesis is effectively reducing the spectral lose, and improving the nat-
uralness of synthetic speech. Therefore, the “end-to-end” -based Tacotron2 synthesis framework has important
applications in Tibetan speech synthesis, and deserves further research and promotion.
Keywords: Speech synthesis; Tibetan; Phoneme transformation; End-to-end; Tacotron2
藏语语音合成中语料库的构建过程,其中包括藏文
0 引言
音素转写、文本标准化、Mel 频谱等。通过对藏语新
藏语语音合成技术作为藏文信息处理的一项 的合成语音和自然语音频谱的偏差分析,和合成语
重要研究课题,通过近十几年的不断努力取得了长 音的自然度的主观评价,证明新的藏语语音合成方
足发展,特别是语音合成的可懂度方面基本上达到 法有效地减少了合成语音的频谱蜕变,提升了合成
了实用效果 [1] 。无论是何种语言,将文字转换成一 语音的清晰度和自然度。因此,基于 “ 端到端” 的
段自然流畅的连续语音是语音合成的终极目标。目 Tacotron2 合成框架,在藏语语音合成中具有重要
前,主要的语音合成方法中,无论基于隐马尔可夫模 的应用价值,值得进一步研究和推广应用。
型(Hidden Markov model, HMM)还是基于深度神
经网络(Deep neural networks, DNN)模型的“统计 1 藏文字母转音素序列
参数合成” 方法,通常有前端文本分析和后端声学
藏语主要分为卫藏、安多、康巴 3 大方言,且各
模型两部分组成 [2−4] 。在传统的藏语语音合成方法
方言之间最主要的区别是发音各不相同,本文研究
中,后端语音合成的效果直接依赖于前端文本分析
的主要对象为藏语卫藏方言 (拉萨话) 的语音合成
的结果,由于藏语属于语言学专家公认的复杂语言
技术。根据藏语语音合成技术的实际需要,本文首
文字,在处理前端文本分析过程中存在很多学术争
先针对藏语语音合成过程中藏语字母转音素模块
议,而且严重受限于资源的匮乏,导致藏语语音合成
进行研究。藏文不同于其他很多语种,藏文类似于
的自然度方面一直得不到令人满意的实验效果,目
英文属于拼音文字,而构成音节的每个字母不具备
前的研究成果仍停留在实验探索阶段,尚未达到实
计算机可分析音素的特点,须通过藏文音素转写。
用效果。
由此可见,传统的 “参数驱动” 藏语语音合成技 藏语字音转换问题,目前在学术界存在很多不
术的发展面临严重的知识障碍,加强基础研究,无疑 同的转写方法,一般常用的有通过国际音标转写、拉
是十分重要的。但与其对立的“数据驱动”语音合成 丁转写、自定义转写。为了进一步兼顾其数据的通
策略,越来越多地受到学术界青睐。它不试图彻底 用性及可移植性,本文在藏语语音合成技术中的字
克服知识障碍,合成的效果达到接近真人的发音水 音转换问题,严格遵循传统藏文拼写文法,重点参照
平,而且是一种在有限的范围内,为达到指定的应用 2015 年国家语委发布的《中国语言生活绿皮书》之
目标,摆脱主要相关语音学知识的羁绊非常实用的 “藏文拉丁转写方案(草案)”相关规范 [10] ,以及国内
技术路线。 外藏学界广泛使用的威利 (Wylie) 转写方案中的相
近年来,随着计算机运算能力的提高 (GPU、多 关转写规则 [11] ,将采用拉丁字母转写把藏语音节转
核计算机) 和海量数据的出现,各种数据驱动机器 换为对应的拉丁形式,即作为对应的音素序列。
学习新的语音合成算法被提出,其中特别值得一 根据藏文拼写文法规定,藏文音节具有严格的
提的是由 Google 在 2017 年和 2018 年分别提出的 书写形式及其顺序,这就是藏文字母转拉丁文本的
端到端 (End-to-End) 语音合成框架 Tacotron [5] 和 重要依据。藏文音节的转写顺序就以藏文书写顺序
Tacotron2 ,这两种模型已经成功地合成了多种语 为准,把藏文的每一个字母依次转换成相应的拉丁
[6]
言和不同发音人的语音 [7−9] 。由于它是一个开源程 字母,即一个完整的藏文音节严格按照书写顺序拆
序,技术路线透明,操作简单易行,本文将它用于 成其相应拉丁字母的方法 [12] 。其具体转写顺序及
藏语语音合成,取得了良好的实验结果。本文阐述 其可遵循的规则如图1所示。