Page 144 - 《应用声学》2023年第2期
P. 144
332 2023 年 3 月
Zhou Yan, Zhao Dongcai. Research on HMM-based Ti- [14] 陈果果, 都家宇, 那兴宇, 等. kaldi 语音识别实战 [M]. 北京:
betan speech synthesis[J]. Computer Applications and 电子工业出版社, 2020.
Software, 2015, 32(5): 171–174. [15] 葛世超, 吕强, 钱思冲, 等. 实时语音处理实践指南 [M]. 北京:
[3] Tokuda K, Nankaku Y, Toda T, et al. Speech synthesis 电子工业出版社, 2020.
based on hidden Markov models[C]. Proceedings of the [16] 才让卓玛, 李永明, 才智杰. 藏语语音合成单元选择 [J]. 软件
IEEE, 2013, 101(5): 1234–1252. 学报, 2015, 26(6): 1409–1420.
[4] Zen H, Senior A, Schuster M. Statistical parametric Cairangzhuoma, Li Yongming, Cai Zhijie. Unit selection
speech synthesis using deep neural networks[C]. Proceed- in Tibetan speech synthesis[J]. Journal of Software, 2015,
ings of the Proceedings of the 2013 IEEE International 26(6): 1409–1420.
Conference on Acoustics, Speech and Signal Processing [17] 拉巴顿珠. 面向信息处理的藏语同形异音词读音识别技术研
(ICASSP). IEEE, 2013: 7962–7966.
究 [D]. 拉萨: 西藏大学, 2018.
[5] Wang Y, Skerry-Ryan R J, Stanton D, et al. Tacotron: to-
[18] 邱泽宇, 屈丹, 张连海. 基于 WaveNet 的端到端语音合成方
wards end-to-end speech synthesis[C]. Proceedings of the
法 [J]. 计算机应用, 2019, 39(5): 1325–1329.
2017 Conference of the International Speech Communica-
Qiu Zeyu, Qu Dan, Zhang Lianhai. End-to-end speech
tion Association (InterSpeech), 2017: 4006–4010.
synthesis based on WaveNet[J]. Journal of Computer Ap-
[6] Shen J, Pang R, Weiss R J, et al. Natural TTS syn-
plications, 2019, 39(5): 1325–1329.
thesis by conditioning WaveNet on Mel spectrogram pre-
[19] 都格草, 才让卓玛, 南措吉, 等. 基于神经网络的藏语语音合
dictions[C]. Proceedings of the 2018 IEEE International
成 [J]. 中文信息学报, 2019, 33(2): 75–80.
Conference on Acoustics, Speech and Signal Processing
Dougecao, Cairangzhuoma, Nancuoji, et al. Neural net-
(ICASSP). IEEE, 2018: 4779–4783.
work based Tibetan speech synthesis[J]. Journal of Chi-
[7] Jia Y, Zhang Y, Weiss R J, et al. Transfer learning from
nese Information Processing, 2019, 33(2): 75–80.
speaker verification to multi speaker text-to-speech syn-
[20] 吴洁. 基于 Tacotron2 的方言语音合成系统开发及应用 [D].
thesis[J]. arXiv Preprint, arXiv: 1806.04558, 2018.
西安: 西安电子科技大学, 2020.
[8] 刘郅楠. 基于端到端蒙古语语音合成方法的研究 [D]. 呼和浩
特: 内蒙古大学, 2019. [21] 王国梁, 陈梦楠, 陈蕾. 一种基于 Tacotron 2 的端到端中文
[9] 刘瑞. 基于深度学习的蒙古语语音合成研究 [D]. 呼和浩特: 语音合成方案 [J]. 华东师范大学学报 (自然科学版), 2019(4):
内蒙古大学, 2020. 111–119.
[10] 教育部语言文字信息管理司组. 藏文拉丁字母转写方案 (草 Wang Guoliang, Chen Mengnan, Chen Lei. An end-to-end
案) 信息处理用现代藏语分词规范 (草案) 信息处理用现代藏 Chinese speech synthesis scheme based on Tacotron2[J].
语词类标记集规范 (草案)[M]. 北京: 商务印书馆, 2015. Journal of East China Normal University (Natural Sci-
[11] Wylie T. A standard system of Tibetan transcription[J]. ence), 2019(4): 111–119.
Harvard Journal of Asiatic Studies, 1959(12): 261–267. [22] 何挺. 基于深度学习的端到端汉语语音合成研究 [D]. 杭州:
[12] 边巴嘉措. 现代藏语书面语语音结构分析 (藏语)[M]. 北京: 浙江大学, 2021.
北京民族出版社, 2017. [23] van den Oord A, Dieleman S, Zen H, et al. WaveNet: a
[13] 汤志远, 李蓝天, 王东, 等. 语音识别基本法: Kaldi 实践与探 generative model for raw audio[C]. Proceedings of the 2016
索 [M]. 北京: 电子工业出版社, 2021. ISCA Speech Synthesis Workshop (SSW), 2016: 125–125.