Page 143 - 《应用声学》2024年第1期
P. 143
第 43 卷 第 1 期 周峻林等: 合成语声的声学分析及识别特征算法 139
3.3.4 RMSA、FFV、SNS 以及融合特征的损失 证损失曲线存在波动,在大约第 20 和第 22 个周期
变化曲线对比分析 时,训练曲线和验证损失曲线开始收敛于稳定值;
在验证集下的特征损失曲线变化如图 7 所示。 由图 7(c) 可见,训练损失曲线在小于 5 个周期内就
可以发现,图 7(a) 中训练曲线和验证损失曲线在 收敛平稳,验证损失曲线在经过 2∼3 次微小波动后
前 10 个周期时下降速度较快,10∼30 个周期内缓 于大约第12个周期就开始收敛于平稳;由图7(d)可
慢下降,最后大约于第 35 个周期逐渐收敛于平稳; 见,训练曲线和验证损失曲线均在小于 5 个周期内
图 7(b) 中训练损失曲线和验证测试曲线在前 10 个 就开始收敛于平稳值,验证曲线仅经过一次骤升剧
周期内下降速度快,10∼20 个周期内缓慢下降,验 降,便趋于稳定下降。
Train 4.0
5 Train
Validation
3.5 Validation
4 3.0
૯ܿဋ 3 ૯ܿဋ 2.5
2.0
2
1.5
1.0
1
0.5
0 10 20 30 40 50 60 0 10 20 30 40 50 60
ᝫጷևర ᝫጷևర
(a) FFVྲढ़ (b) RMSAྲढ़
8
Train Train
7
Validation 2.0 Validation
6
5 1.5
૯ܿဋ 4 ૯ܿဋ
3 1.0
2
0.5
1
0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60
ᝫጷևర ᝫጷևర
(c) SNSྲढ़ (d) SNS+FFV+RMSAྲढ़
图 7 单个特征和融合特征的损失曲线对比
Fig. 7 Comparison of loss curves of single features and fused features
通过分析以上的损失曲线观察结果可以发现: 极其重要的。
当将 RMSA 特征、FFV 特征和 SNS 特征融合输入
3.3.5 融合特征与已有研究成果对比实验
至模型中时,模型的训练损失曲线和验证损失曲线
通过比对表 4 可以发现:每组特征在不同的后
下降速度进一步提高,起伏减少,稳定收敛所需周期
端神经网络模型中的性能各不一样。其中在SERes-
进一步减小,反映出融合特征性能最佳。这是因为
Net50 的模型下,本文提出的融合特征效果最佳;
这 3 种特征之间信息重复度较低,经过组合后能够
在 SEResNet34 模型下,AFF 特征的效果最佳。除
较好地将合成语声与真实语声区分开来。进一步证 此之外,所提融合特征相比其他特征在不同模型
实特征在本质上所反映出的是语声声学特性的不 下的表现差异更小,性能更为稳定。这是由于所
同方面,且均有利于合成语声的识别,也进一步反映 提融合特征的构成是来自于频谱、基频、声强 3 个
出频谱声学特性对于合成语声识别精度的提高是 不同方面,不同特征之间相互补足,所以面对不