Page 144 - 《应用声学》2023年第2期
P. 144

332                                                                                  2023 年 3 月


                 Zhou Yan, Zhao Dongcai. Research on HMM-based Ti-  [14] 陈果果, 都家宇, 那兴宇, 等. kaldi 语音识别实战 [M]. 北京:
                 betan speech synthesis[J]. Computer Applications and  电子工业出版社, 2020.
                 Software, 2015, 32(5): 171–174.                [15] 葛世超, 吕强, 钱思冲, 等. 实时语音处理实践指南 [M]. 北京:
              [3] Tokuda K, Nankaku Y, Toda T, et al. Speech synthesis  电子工业出版社, 2020.
                 based on hidden Markov models[C]. Proceedings of the  [16] 才让卓玛, 李永明, 才智杰. 藏语语音合成单元选择 [J]. 软件
                 IEEE, 2013, 101(5): 1234–1252.                    学报, 2015, 26(6): 1409–1420.
              [4] Zen H, Senior A, Schuster M. Statistical parametric  Cairangzhuoma, Li Yongming, Cai Zhijie. Unit selection
                 speech synthesis using deep neural networks[C]. Proceed-  in Tibetan speech synthesis[J]. Journal of Software, 2015,
                 ings of the Proceedings of the 2013 IEEE International  26(6): 1409–1420.
                 Conference on Acoustics, Speech and Signal Processing  [17] 拉巴顿珠. 面向信息处理的藏语同形异音词读音识别技术研
                 (ICASSP). IEEE, 2013: 7962–7966.
                                                                   究 [D]. 拉萨: 西藏大学, 2018.
              [5] Wang Y, Skerry-Ryan R J, Stanton D, et al. Tacotron: to-
                                                                [18] 邱泽宇, 屈丹, 张连海. 基于 WaveNet 的端到端语音合成方
                 wards end-to-end speech synthesis[C]. Proceedings of the
                                                                   法 [J]. 计算机应用, 2019, 39(5): 1325–1329.
                 2017 Conference of the International Speech Communica-
                                                                   Qiu Zeyu, Qu Dan, Zhang Lianhai. End-to-end speech
                 tion Association (InterSpeech), 2017: 4006–4010.
                                                                   synthesis based on WaveNet[J]. Journal of Computer Ap-
              [6] Shen J, Pang R, Weiss R J, et al. Natural TTS syn-
                                                                   plications, 2019, 39(5): 1325–1329.
                 thesis by conditioning WaveNet on Mel spectrogram pre-
                                                                [19] 都格草, 才让卓玛, 南措吉, 等. 基于神经网络的藏语语音合
                 dictions[C]. Proceedings of the 2018 IEEE International
                                                                   成 [J]. 中文信息学报, 2019, 33(2): 75–80.
                 Conference on Acoustics, Speech and Signal Processing
                                                                   Dougecao, Cairangzhuoma, Nancuoji, et al. Neural net-
                 (ICASSP). IEEE, 2018: 4779–4783.
                                                                   work based Tibetan speech synthesis[J]. Journal of Chi-
              [7] Jia Y, Zhang Y, Weiss R J, et al. Transfer learning from
                                                                   nese Information Processing, 2019, 33(2): 75–80.
                 speaker verification to multi speaker text-to-speech syn-
                                                                [20] 吴洁. 基于 Tacotron2 的方言语音合成系统开发及应用 [D].
                 thesis[J]. arXiv Preprint, arXiv: 1806.04558, 2018.
                                                                   西安: 西安电子科技大学, 2020.
              [8] 刘郅楠. 基于端到端蒙古语语音合成方法的研究 [D]. 呼和浩
                 特: 内蒙古大学, 2019.                                [21] 王国梁, 陈梦楠, 陈蕾. 一种基于 Tacotron 2 的端到端中文
              [9] 刘瑞. 基于深度学习的蒙古语语音合成研究 [D]. 呼和浩特:                  语音合成方案 [J]. 华东师范大学学报 (自然科学版), 2019(4):
                 内蒙古大学, 2020.                                      111–119.
             [10] 教育部语言文字信息管理司组. 藏文拉丁字母转写方案 (草                     Wang Guoliang, Chen Mengnan, Chen Lei. An end-to-end
                 案) 信息处理用现代藏语分词规范 (草案) 信息处理用现代藏                    Chinese speech synthesis scheme based on Tacotron2[J].
                 语词类标记集规范 (草案)[M]. 北京: 商务印书馆, 2015.                Journal of East China Normal University (Natural Sci-
             [11] Wylie T. A standard system of Tibetan transcription[J].  ence), 2019(4): 111–119.
                 Harvard Journal of Asiatic Studies, 1959(12): 261–267.  [22] 何挺. 基于深度学习的端到端汉语语音合成研究 [D]. 杭州:
             [12] 边巴嘉措. 现代藏语书面语语音结构分析 (藏语)[M]. 北京:                 浙江大学, 2021.
                 北京民族出版社, 2017.                                 [23] van den Oord A, Dieleman S, Zen H, et al. WaveNet: a
             [13] 汤志远, 李蓝天, 王东, 等. 语音识别基本法: Kaldi 实践与探             generative model for raw audio[C]. Proceedings of the 2016
                 索 [M]. 北京: 电子工业出版社, 2021.                         ISCA Speech Synthesis Workshop (SSW), 2016: 125–125.
   139   140   141   142   143   144   145   146   147   148   149