Page 136 - 《应用声学》2023年第2期
P. 136
第 42 卷 第 2 期 Vol. 42, No. 2
2023 年 3 月 Journal of Applied Acoustics March, 2023
⋄ 研究报告 ⋄
端到端的藏语语音合成方法 ∗
拉巴顿珠 1 珠杰 1† 欧珠 1,2 尼玛 1†
(1 西藏大学信息科学技术学院 西藏信息化省部共建协同创新中心 拉萨 850000)
(2 西藏民族大学 咸阳 712000)
摘要:近年来,得益于计算机运算能力的提高和语音数据的不断积累,涌现出许多基于机器学习的语音处理
新技术,其中基于深度神经网络算法,端到端的 Tacotron2 语音合成系统框架得到业界广泛的青睐。它是一个
开源程序,简单易行,已成功地应用于多种语言和不同音色的语音合成。该文研究 Tacotron2 在藏语中的应用,
取得了良好的实验结果。首先,通过自然语音采集、自动标注、声学分析等构建了一个中等规模 (5500 句) 藏
语卫藏方言的语音语料库,其中包括藏文音素转写、特殊符号处理和 Mel 谱等各项数据;其次,利用开源程序
Tacotron2 和上述语音库进行了藏语语音合成试验;最后,通过对合成语音和自然语音的偏差分析,和对合成
语音的自然度的主观评价,表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变,提升了
合成语音的自然度。因此,基于 “端到端” 的 Tacotron2 合成框架在藏语语音合成中具有重要的应用价值,值得
进一步研究和推广应用。
关键词:语音合成;藏语;字音转换;端到端; Tacotron2
中图法分类号: TP391 文献标识码: A 文章编号: 1000-310X(2023)02-0324-09
DOI: 10.11684/j.issn.1000-310X.2023.02.015
Tibetan speech synthesis method based on end-to-end
Lhakpadondrub 1 Zhujie 1 Ngodrup 1,2 Nima 1
(1 School of Information Science and Technology, Tibet Informatization Collaborative Innovation Center Jointly
Built by the Province and the Ministry, Tibet University, Lhasa 850000, China)
(2 Xizang Minzu University, Xianyang 712000, China)
Abstract: In recent years, thanks to the improvement of computer computing capability and the continuous
accumulation of voice data, many new machine learning-based voice processing technologies have emerged,
among which, based on the deep neural network algorithm, the end-to-end Tacotron2 voice synthesis system
framework has been widely favored in the speech engineering technology. Tacotron2 is an open source program,
easy to run, and has been successfully applied to speech synthesis in multiple languages and in different tones.
This paper studies the application of Tacotron2 in the Tibetan language and achieves good experimental
results. First, a mediumscale database of Tibetan speech (5500 sentences) was constructed through natural
speech collection, automatic annotation, and acoustic analysis. These include Tibetan phoneme transformation,
digital recording and Mel-spectrum data. Then, the Tibetan speech synthesis test was performed using the open
source program Tacotron2 and the above speech database. Last, by error analysis of synthetic Mel-spectrum,
2022-01-07 收稿; 2022-03-07 定稿
国家自然科学基金项目 (62066042, 61872254, 62162057), 教育部人文社会科学研究项目 (21YJCZH059, 20YJA740035), 西藏大学培
∗
育计划项目 (ZDCZJH21-10)
作者简介: 拉巴顿珠 (1990– ), 男, 西藏日喀则人, 博士研究生, 研究方向: 计算语言学, 人工智能。
† 通信作者 E-mail: 790139756@qq.com; 1002735815@qq.com