Page 137 - 《应用声学》2024年第1期
P. 137

第 43 卷 第 1 期               周峻林等: 合成语声的声学分析及识别特征算法                                           133


             息、部分频带特性 5 个方面进行设计和持续改进的。                         1.2  声学研究结果
             但是由于目前计算机对于人类语声的感知学习能                                 对合成语声与真实语声的基频、声强、窄带频
             力是有限的,现有成果针对合成语声的声学特性表                            谱图 3 类声学特性进行比对以及结果分析,其中真
             现研究较少,针对合成语声同真实语声在听感上存                            实语声包含中性、愤怒、恐惧、开心、悲伤 5 种情感。
             在的韵律平淡、自然度欠缺的特点所设计的特征较                            这是因为人类往往是在不同情感状态下进行发声
             少,且不同特征间的融合探索还可以进一步加强。                            的,使用不同的情感语声将能更全面地代表人类语
                                                               声的真实发声情况。分别提取 90 条合成语声与 90
             1 合成与真实语声的声学差异分析                                  条真实语声中的基频和声强数据,求取均值和方差

                                                               值的总体均值,统计结果如图2、图3所示。
                 本节通过剖析比对合成语声同真实语声在声
                                                                   总结合成语声与真实语声在声学特性中的表
             学特性上的差异,开展声学分析,从而证实两者差异
                                                               现差异如下:
             是可通过声学特性进行体现的。
                                                                   (1) 基频。由图 2(a) 可见:合成语声的基频均
             1.1 声学研究过程                                        值约为 170.75 Hz,而真实语声的基频均值约为

                 本文通过使用语声学分析软件Praat 对比计算                       257.98 Hz;合成语声基频方差值约为44.57,真实语
             机合成的语声、人类真实语声的各项声学特性,生                            声基频方差值却为 1849.83。对比之下,可见真实语
             成相关图表,分析数据上的差异,从而找到可用以区                           声基频均值和方差值均大于合成语声,其中方差值
             分合成语声和真实语声的依据。其中真实语声来自                            要远大于合成语声。这是因为人类真实语声往往会
             于TESS数据集      [14] ,合成语声来自于利用Jia等          [15]   受多方面影响而起伏波动,比如在某些激烈的情绪
             提出的说话人风格迁移的方法和 SV2TTS 模型在                         条件下,声调变化程度也会加剧,使得基频方差要明
             真实语声的基础上进行合成。两者在语义信息、说                            显大于合成语声。因此,可利用声调的变化程度作
             话人声音特点上保持了一致。                                     为区分合成语声与真实语声的可靠依据之一。
                 研究具体过程如图 1 所示。首先在语声数据集
                                                                                        1849.827498
             中选取出真实语声;随后提取出真实语声的文本信                                                     1849.83
             息与说话人声音特点,融入至用于语声合成的神经
                                                                    1000
             网络模型中,得到满足比对条件的合成语声和真实                                  800                      257.9823182
                                                                                               257.98
             语声样本;再依次通过不同的软件进行语声标注、数                               /Hz  600
                                                                                        170.7470758
                                                                                         170.75
                                                                     400
             据提取、绘制图表,得到声学特性的数据统计结果;                                        44.570
                                                                             44.5730412
                                                                     200
             最后经过分析,得到结论。                                             0

                        ஝૶ᬷ                 ឦܦᮃጉ                                    (a)
                         ᤥၹ
                      ᄾࠄឦܦನవ            SV2TTSᎪፏവی                                              62.92
                                                                                           83.06
                         ଢԩ
                                                                      80
                           ឭភ̡ܦᮃྲག+ឦ˧ηৌ
                                                                      60           13.30
                                                                    ܦू/dB  40
                                       ͢ᤵឦܦನవ
                                                                      20      6.61
                         SPPASᣄ͈ឦܦಖฌ
                                                                      0

                        Praatᣄ͈ܦߦྲভଢԩ
                                                                                   (b) ܦू
                           ፒᝠ஝૶ፋ҄ڏ᛫                               图 2 合成与真实语声的基频、声强均值及方差数据
                                                                  统计图
                          Ѭౢࣀपࣳ঴ፇ᜻॥
                                                                  Fig. 2  The statistical graph of the mean and
                            图 1  声学研究流程                           variance data of the fundamental frequency and
                    Fig. 1 The process of acoustic research       speech intensity of the synthetic and real speech
   132   133   134   135   136   137   138   139   140   141   142