Page 141 - 《应用声学》2024年第1期
P. 141
第 43 卷 第 1 期 周峻林等: 合成语声的声学分析及识别特征算法 137
៨
ڏ
ی CNNՔ᧚᛫ᇨ
ྲ ᣥК
ढ़ SNSྲढ़ CNNᎪፏവی
ԍ᎖
Л Ռੇ
ᤌ
ଌ
concatᚸՌ ࡏ ᄾࠄ
ऀ FFVྲढ़ ᣥѣ
ی ᣥК DNNᎪፏവی
ྲ RMSAྲढ़ DNNՔ᧚᛫ᇨ
ढ़
图 6 融合特征识别模型结构图
Fig. 6 Structure diagram of fusion feature recognition model
模型的训练具体参数设置为:使用 Adam 优化 Pitch 特征在模型中的识别效果则分别为 25.2%、
器,学习率初始化为 3×10 −4 ,损失函数使用二值交 27.8%。这表明提取出语声的声强、基频声学特性,
叉熵函数。为避免过拟合,当训练过程中损失不再 并且利用其开展区分合成语声与真实语声是可行
下降超过 5 轮时,学习率缩小 10 倍。训练批次大小 的。差分特征能够实现一定程度的识别效果,改进
为128,训练周期为60轮。 的RMSA和FFV特征优于差分特征。
由测试集实验结果可见,RMSA 特征、FFV 特
3.3 实验结果与分析
征的 EER 为 28.6%、43.8%,识别效果最佳。这表明
3.3.1 RMSA、FFV特征有效性验证实验
本文使用的RMSA特征、FFV特征分别能在一定程
为验证本文设计的特征在合成语声识别任务
度上对合成语声进行识别的基础上,对于训练集中
上的有效性以及优化性能,开展消融实验,进一步对
没有学习过的语声合成算法的泛化识别性能更好。
比本文所选用和设计的声学特征在合成语声识别
通过对比上述实验结果可以发现:RMSA 特征
领域的适用性,将提取 RMS特征、RMS 差分特征比
在验证集中的性能略差于 RMS 特征,优于 RMS 差
对本文设计的 RMSA 特征识别性能;提取 Pitch(基
分特征,在测试集中的性能却同时好于RMS特征和
频) 特征、Pitch 差分特征比对 FFV 特征识别性能,
RMS差分特征。这是因为模型通过学习RMS特征,
在相同的 DNN 模型下进行测试,EER 指标如表 1
学习到了声强的数值大小,利用声强数值上的差异
所示。
也能够区分部分合成语声与真实语声,但是表征声
表 1 RMSA、FFV 和对比特征的实验结果 强变化程度的 RMSA 特征更为根本性地反映了合
成语声在声学特性上与真实语声的差异,并进一步
Table 1 Experimental results of RMSA,
FFV and comparison features 增强了差异性表现程度,因此模型通过学习 RMSA
特征将能拥有更好的鲁棒性和泛化性能。
声学特征 (Features) 验证集 EER/% 测试集 EER/%
FFV 特征则在验证集、测试集上均优于 Pitch
RMS 特征 25.2 33.5
特征及差分特征,但可以发现在测试集中 Pitch 特
RMS 差分特征 34.6 36.8
征识别合成语声失败,且 Pitch 差分特征和 FFV 特
RMSA 特征 * 27.4 28.6
征的 EER 也明显提高,证明在面对新算法的干扰
Pitch 特征 27.8 50
时,利用基频特性开展合成语声识别的鲁棒性要差
Pitch 差分特征 43.8 44.7
于声强特性。因此,可见通过提取RMSA特征、FFV
FFV 特征 26 43.8
特征实现合成语声的识别,反映出本文所设计的算
* 为本文所提特征。
法能较好地表征出语声声学特性的特点的同时,也
由验证集实验结果可见,6 种特征都能实现在 证明利用声强、基频的变化程度差异,区分合成语
一定程度上识别合成语声,其中对照设置的 RMS、 声与真实语声是可行的且性能较好。