Page 144 - 《应用声学》2024年第1期
P. 144
140 2024 年 1 月
同模型均能保持良好性能。融合特征在没有 SE 模 和频谱特性数据特征化的 RMSA 特征、FFV 特征、
块的 ResNet+DNN 模型下的表现依次优于 SERes- SNS 特征模型以及三者的深度融合特征在使用深
Net34/SEResNet50+DNN 模型,是因为 SE 注意力 度学习方法进行合成语声识别任务中,达到了较好
模块并不能有效聚焦本文所提融合特征中的关键 的分类效果,实现了合成语声与真实语声的辨别。
数据信息,导致,实验EER的提高。 对于目前合成语声识别领域大量使用频域特征进
行识别的现状,从声学角度进行对语声差异进行分
表 4 RMSA、FFV、SNS 融合特征和已有研究
析描述,拓宽了研究思路,形成了较为完备的特征
的实验结果
研究过程,为合成语声识别领域提供了不同的特征
Table 4 Experimental results of RMSA,
设计方法,为深度学习方法提供了前提条件和实验
FFV, and SNS fusion features and existing
studies 基础。
在后续深化研究的过程中,将设计和使用更优
声学特征 (Features) 模型 (Models) 测试集 EER/%
的深度神经网络模型,改进深度学习方法,针对所提
SEResNet50 [22] 38.5 声学特征设计优化识别模型结构,提高声学特征的
MFCC 特征
SEResNet34 15.8
使用效率,更大程度地发挥声学特征效能。进一步
SEResNet50 [22] 49.9
LFCC 特征 拓展研究深度,将能使得合成语声的识别更加准确。
SEResNet34 16.0
SEResNet50 [22] 18.6
AFF 特征
SEResNet34 [22] 4.9 参 考 文 献
SEResNet50+DNN 12.8
RMSA+FFV+SNS
SEResNet34+DNN 12.5
融合特征 * [1] 魏为民, 刘畅, 才智, 等. 合成语音检测方法的研究现状及展
ResNet+DNN 10.8 望 [J]. 上海电力大学学报, 2022, 38(1): 75–81.
Wei Weimin, Liu Chang, Cai Zhi, et al. Research status
* 为本文所提融合特征。
and prospect of synthetic speech detection[J]. Journal of
由此可见,不同的后端分类模型对特征的性能 Shanghai University of Electric Power, 2022, 38(1): 75–81.
[2] 任延珍, 刘晨雨, 刘武洋, 等. 语音伪造及检测技术研究综
影响较大。这是因为不同的模型对不同数据类型特
述 [J]. 信号处理, 2021, 37(12): 2412–2439.
征的学习程度不同,好的模型将能更为充分高效学 Ren Yanzhen, Liu Chenyu, Liu Wuyang, et al. A sur-
习到关键信息。因此,接下来将开发适用所提融合 vey on speech forgery and detection[J]. Journal of Signal
Processing, 2021, 37(12): 2412–2439.
特征的深度神经网络模型,提高特征利用率,进一步
[3] Davis S, Mermelstein P. Comparison of parametric rep-
强化识别合成语声的性能。 resentations for monosyllabic word recognition in con-
综合上述实验可见,基于声强和基频的变化 tinuously spoken sentences[J]. IEEE Trans on Acoustics,
Speech, and Signal Processing, 1980, 28(4): 357–366.
程度和语声频谱特性数据特征化得到的 RMSA、
[4] Chettri B, Sturm B L, Benetos E. Analysing replay
FFV、SNS 特征皆可适用于合成语声识别任务。对 spoofing countermeasure performance under varied con-
比 3 种特征性能,在面对已知算法的数据时,三者 ditions[C]//2018 IEEE 28th International Workshop on
Machine Learning for Signal Processing. IEEE, 2018: 1–6.
都拥有较好的性能,能较好地实现合成语声的识别。
[5] Hanilçi C. Linear prediction residual features for auto-
而面对训练集中没有的新算法干扰时,SNS 特征的 matic speaker verification anti-spoofing[J]. Multimedia
泛化性能最优,RMSA特征其次,FFV特征最差,三 Tools and Applications, 2018, 77(13): 16099–16111.
者通过融合后的性能最佳。 [6] Sanchez J, Saratxaga I, Hernaez I, et al. Toward a univer-
sal synthetic speech spoofing detection using phase infor-
mation[J]. IEEE Transactions on Information Forensics &
4 结论 Security, 2015, 10(4): 810–820.
[7] Tian X, Wu Z, Xiao X, et al. Spoofing detection from
为实现利用声学特性实现合成语声识别的目 a feature representation perspective[C]//2016 IEEE In-
标,本文着重论述了基于声学特性的声学特征的提 ternational Conference on Acoustics, Speech and Signal
Processing. IEEE, 2016: 2119–2123.
取和设计算法,开展了深度学习实验验证所提特征
[8] Todisco M, Delgado H, Evans N. Constant Q cepstral coef-
的有效性。实验结果表明,基于声强、基频变化程度 ficients: a spoofing countermeasure for automatic speaker