Page 142 - 《应用声学》2024年第1期
P. 142
138 2024 年 1 月
3.3.2 SNS特征有效性验证实验 为 SNS 特征表征的 SNS 中包含了大量语声频谱声
为对比 SNS 特征,选择基于语声频谱数据为 学特性,当 CNN 模型利用该特性开展合成语声识
基础进行变换得到的特征,分别为 MFCC、Mel- 别时,能更加直观地学习到谐波形态与分布宽泛程
Spectrogram、CQT、LFCC 特征。以上 4 种对比特 度的差异,优于宽带频谱图中 Formants(共振峰) 以
征均是在语声频谱数据的基础上设计应用不同的 及其他特征对于频谱特性的表达方法。因此,可见
算法得到的特征,是目前合成语声识别领域性能较 通过提取 SNS 特征能够实现合成语声的识别,在表
好、应用较多、设计较为前沿的特征,在欺骗性语 征出合成语声与真实语声频谱声学特性差异的同
声识别大赛上均能取得较好的实验效果。同时提取 时,也证明利用该差异区分合成语声与真实语声是
了宽带频谱图中的 Formants(共振峰) 特征来对比 可行的且性能较好。
SNS特征。
通过采用相同的 CNN 模型分别对 SNS 特征 3.3.3 RMSA、FFV、SNS融合特征消融实验
以及 Formants、MFCC、Mel-spectrogram、CQT、 通过采用 DNN 模型分别对 RMSA、FFV 特征
LFCC 特征进行对比实验,以发现本文使用的 SNS 进行深度向量表征,采用 CNN 模型对 SNS 特征进
特征化频谱声学特性的方法对合成语声识别任务 行深度向量表示,以融合特征化声学特性的声学特
的适用性,验证所设计语声的特征的有效性。根据 征。将三者的融合特征与消融后的单个特征进行
结果计算的EER指标如表2所示。 对比,分析融合过程对最终的合成语声识别所带来
的影响,验证融合特征的有效性。根据结果计算的
表 2 SNS 和对比特征的实验结果
EER指标如表3所示。
Table 2 Experimental results of SNS and
comparison features
表 3 RMSA、FFV、SNS 融合特征的消融实验结果
声学特征 (Features) 验证集 EER/% 测试集 EER/% Table 3 Results of ablation experiments of
SNS 特征 1.2 13.4 RMSA, FFV and SNS fusion features
Formants 特征 3.9 19.6
声学特征 (Features) 验证集 EER/% 测试集 EER/%
MFCC 特征 [19] 2.0 26.3
RMSA 特征 27.4 28.6
Mel-spectrogram 特征 4.5 20.1
FFV 特征 26 43.8
CQT 特征 [20] 7.4 13.8
SNS 特征 1.2 13.4
LFCC 特征 [21] 1.5 20.8
RMSA+FFV+SNS
0.6 13.1
由验证集实验结果可见,SNS 特征与对比特 融合特征 *
征都能识别合成语声。其中 SNS 特征、Formants特 * 为本文所提融合特征。
征、MFCC特征、Mel-spectrogram特征、CQT特征、
通过对比可以发现:3 类特征融合后在验证集
LFCC 特征的 EER 分别达到了 1.2%、3.9%、2.0%、
4.5%、7.4%、1.5%。这表明利用频谱特性为基础的声 和测试集上表现最佳。这是因为不同的声学特征之
学特征能够使模型学习到合成语声与真实语声之 间,存在着同质和异质之差的部分。特征数据内部
间的差异,并且SNS特征在验证集中的性能最优。 不同部分对目标任务的价值高低也不尽相同。通过
由测试集实验结果可见,同为频谱变换得到的 模型深度表示的方法对特征进行融合,可以相互补
SNS 特征和对比特征在相同的网络模型下,得到的 足异质有价值的数据、强化共有的同质关键数据以
EER 分别为 13.4%、19.6%、26.3%、20.1%、13.8%、 及弱化异质冗余数据。同时,证明了本文使用的 3
20.8%,其中 SNS 特征 EER 明显最低。这表明本文 种声学特征之间的信息冗余较少,不同特征之间可
使用的 SNS 特征对于训练集中没有学习过的语声 以相互补充,使得融合后的数据信息价值更高。因
合成算法同样保持着较好的识别性能,泛化性能 此,通过利用 RMSA、FFV、SNS 的融合特征开展合
更好。 成语声识别是有效的,3 种特征之间包含着异质高
通过对比上述实验结果可以发现:SNS 特征在 价值数据,可以进一步降低 EER,提升模型的识别
验证集和测试集当中的识别性能是最佳的。这是因 性能。