Page 138 - 《应用声学》2024年第1期
P. 138

134                                                                                  2024 年 1 月


                 (2) 声强。由图2(b)可见:合成语声的声强均值                     弯曲,韵尾走向平直,音节过渡区域几乎没有抖动,
             约为83.06 dB,真实语声的声强均值约为83.06 dB。                   见图 3(a) 中蓝色方框中无黑色实线;中性语声谐波
             对比之下,可见真实语声声强均值小于合成语声,声                           整体形态近乎平直,韵头、韵尾均有微小的弯曲,倾
             强方差值要大于合成语声。这是因为真实语声往往                            角较小,在音节过渡区域可见明显但幅度较小的抖
             节奏多变,致使语声能量起伏输出、方差较大。但                            动,见图 3(b) 蓝色方框中线条弯曲;悲伤语声整体
             是语声的强度大小可受到声源设备等非语声自身                             形态呈直线下降趋势,韵头、韵尾走向有些许弯曲,
             因素决定,并非合成语声与真实语声的根本性差异。                           过渡区域的抖动较小,见图 3(d) 蓝色方框中线条起
             由此可知,可利用语声声强的变化程度作为区分合                            伏弯曲;恐惧、开心、愤怒语声可见整体形态存在着
             成语声与真实语声的可靠依据之一。                                  明显的、不同程度的倾斜和弯曲,呈下降趋势,韵头
                 (3) 窄带频谱图。由文献 [16] 以及图 3 可见:合                 韵尾弯曲明显且程度大,音节过渡区域存在明显较
             成语声 3000 Hz 以上频率的谐波存在着明显缺失,                       大抖动,见图 3(c)、图 3(e)、图 3(f) 蓝色方框中线条
             谐波总体形态平直无倾斜,韵头走向仅存在微小的                            为曲线,且弯曲程度大。



                   5000                                         5000
                   4000                                         4000
                  ᮠဋ/Hz  3000                                  ᮠဋ/Hz  3000
                   2000
                                                                2000
                   1000                                         1000
                     0                                             0
                     0.18                               1.15       0.25                              1.35
                                      ௑ᫎ/s                                         ௑ᫎ/s
                                     (a) Ռੇ                                        (b) ˗ভ
                   5000                                         5000
                   4000                                         4000
                  ᮠဋ/Hz  3000                                  ᮠဋ/Hz  3000

                   2000
                                                                2000
                   1000                                         1000
                     0                                             0
                      0.22                               0.99      0.28                               1.60
                                      ௑ᫎ/s                                         ௑ᫎ/s
                                     (c) ়৾                                        (d) ৬͞

                   5000                                         5000
                   4000                                         4000
                  ᮠဋ/Hz  3000                                  ᮠဋ/Hz  3000
                   2000
                                                                2000
                   1000                                         1000
                     0                                             0
                      0.2                                1.2       0.12                              0.87
                                      ௑ᫎ/s                                         ௑ᫎ/s
                                     (e) नॷ                                        (f) ਙড
                                            图 3  合成语声与真实语声窄带频谱比对图
                            Fig. 3 The comparison of narrowband spectrogram of synthetic and real speech


                 由上述比对结果可知:在窄带频谱图谐波形态                          靠依据之一。
             方面,真实语声较合成语声的整体弯曲、倾斜程度
                                                               2 合成语声识别特征研究
             更大,韵头韵尾弯曲程度明显更大,过渡区域的抖动
             范围更大。因此,频谱图中反映的谐波形态、频谱分                               表征声学特性的数据需进一步量化为声学特
             布宽泛程度可作为区分合成语声与真实语声的可                             征输入至构造的深度学习模型中,才能让机器实现
   133   134   135   136   137   138   139   140   141   142   143