Page 142 - 《应用声学》2024年第1期
P. 142

138                                                                                  2024 年 1 月


             3.3.2 SNS特征有效性验证实验                                为 SNS 特征表征的 SNS 中包含了大量语声频谱声
                 为对比 SNS 特征,选择基于语声频谱数据为                        学特性,当 CNN 模型利用该特性开展合成语声识
             基础进行变换得到的特征,分别为 MFCC、Mel-                         别时,能更加直观地学习到谐波形态与分布宽泛程
             Spectrogram、CQT、LFCC 特征。以上 4 种对比特                 度的差异,优于宽带频谱图中 Formants(共振峰) 以
             征均是在语声频谱数据的基础上设计应用不同的                             及其他特征对于频谱特性的表达方法。因此,可见
             算法得到的特征,是目前合成语声识别领域性能较                            通过提取 SNS 特征能够实现合成语声的识别,在表
             好、应用较多、设计较为前沿的特征,在欺骗性语                            征出合成语声与真实语声频谱声学特性差异的同
             声识别大赛上均能取得较好的实验效果。同时提取                            时,也证明利用该差异区分合成语声与真实语声是
             了宽带频谱图中的 Formants(共振峰) 特征来对比                      可行的且性能较好。
             SNS特征。
                 通过采用相同的 CNN 模型分别对 SNS 特征                      3.3.3  RMSA、FFV、SNS融合特征消融实验
             以及 Formants、MFCC、Mel-spectrogram、CQT、                 通过采用 DNN 模型分别对 RMSA、FFV 特征
             LFCC 特征进行对比实验,以发现本文使用的 SNS                        进行深度向量表征,采用 CNN 模型对 SNS 特征进
             特征化频谱声学特性的方法对合成语声识别任务                             行深度向量表示,以融合特征化声学特性的声学特
             的适用性,验证所设计语声的特征的有效性。根据                            征。将三者的融合特征与消融后的单个特征进行
             结果计算的EER指标如表2所示。                                  对比,分析融合过程对最终的合成语声识别所带来

                                                               的影响,验证融合特征的有效性。根据结果计算的
                     表 2   SNS 和对比特征的实验结果
                                                               EER指标如表3所示。
                Table 2 Experimental results of SNS and
                comparison features
                                                                表 3   RMSA、FFV、SNS 融合特征的消融实验结果
                声学特征 (Features)  验证集 EER/%   测试集 EER/%           Table 3 Results of ablation experiments of
                    SNS 特征           1.2         13.4            RMSA, FFV and SNS fusion features
                  Formants 特征        3.9         19.6
                                                                   声学特征 (Features)  验证集 EER/%   测试集 EER/%
                  MFCC 特征  [19]      2.0         26.3
                                                                      RMSA 特征          27.4         28.6
               Mel-spectrogram 特征    4.5         20.1
                                                                      FFV 特征            26          43.8
                  CQT 特征  [20]       7.4         13.8
                                                                      SNS 特征            1.2         13.4
                  LFCC 特征  [21]      1.5         20.8
                                                                   RMSA+FFV+SNS
                                                                                        0.6         13.1
                 由验证集实验结果可见,SNS 特征与对比特                                融合特征 *
             征都能识别合成语声。其中 SNS 特征、Formants特                        * 为本文所提融合特征。
             征、MFCC特征、Mel-spectrogram特征、CQT特征、
                                                                   通过对比可以发现:3 类特征融合后在验证集
             LFCC 特征的 EER 分别达到了 1.2%、3.9%、2.0%、
             4.5%、7.4%、1.5%。这表明利用频谱特性为基础的声                     和测试集上表现最佳。这是因为不同的声学特征之
             学特征能够使模型学习到合成语声与真实语声之                             间,存在着同质和异质之差的部分。特征数据内部
             间的差异,并且SNS特征在验证集中的性能最优。                           不同部分对目标任务的价值高低也不尽相同。通过
                 由测试集实验结果可见,同为频谱变换得到的                          模型深度表示的方法对特征进行融合,可以相互补
             SNS 特征和对比特征在相同的网络模型下,得到的                          足异质有价值的数据、强化共有的同质关键数据以
             EER 分别为 13.4%、19.6%、26.3%、20.1%、13.8%、            及弱化异质冗余数据。同时,证明了本文使用的 3
             20.8%,其中 SNS 特征 EER 明显最低。这表明本文                    种声学特征之间的信息冗余较少,不同特征之间可
             使用的 SNS 特征对于训练集中没有学习过的语声                          以相互补充,使得融合后的数据信息价值更高。因
             合成算法同样保持着较好的识别性能,泛化性能                             此,通过利用 RMSA、FFV、SNS 的融合特征开展合
             更好。                                               成语声识别是有效的,3 种特征之间包含着异质高
                 通过对比上述实验结果可以发现:SNS 特征在                        价值数据,可以进一步降低 EER,提升模型的识别
             验证集和测试集当中的识别性能是最佳的。这是因                            性能。
   137   138   139   140   141   142   143   144   145   146   147