Page 144 - 《应用声学》2024年第1期
P. 144

140                                                                                  2024 年 1 月


             同模型均能保持良好性能。融合特征在没有 SE 模                          和频谱特性数据特征化的 RMSA 特征、FFV 特征、
             块的 ResNet+DNN 模型下的表现依次优于 SERes-                   SNS 特征模型以及三者的深度融合特征在使用深
             Net34/SEResNet50+DNN 模型,是因为 SE 注意力                度学习方法进行合成语声识别任务中,达到了较好
             模块并不能有效聚焦本文所提融合特征中的关键                             的分类效果,实现了合成语声与真实语声的辨别。
             数据信息,导致,实验EER的提高。                                 对于目前合成语声识别领域大量使用频域特征进
                                                               行识别的现状,从声学角度进行对语声差异进行分
                表 4  RMSA、FFV、SNS 融合特征和已有研究
                                                               析描述,拓宽了研究思路,形成了较为完备的特征
                的实验结果
                                                               研究过程,为合成语声识别领域提供了不同的特征
                Table 4 Experimental results of RMSA,
                                                               设计方法,为深度学习方法提供了前提条件和实验
                FFV, and SNS fusion features and existing
                studies                                        基础。
                                                                   在后续深化研究的过程中,将设计和使用更优
               声学特征 (Features)   模型 (Models)   测试集 EER/%
                                                               的深度神经网络模型,改进深度学习方法,针对所提
                                 SEResNet50 [22]   38.5        声学特征设计优化识别模型结构,提高声学特征的
                 MFCC 特征
                                  SEResNet34       15.8
                                                               使用效率,更大程度地发挥声学特征效能。进一步
                                 SEResNet50 [22]   49.9
                  LFCC 特征                                      拓展研究深度,将能使得合成语声的识别更加准确。
                                  SEResNet34       16.0
                                 SEResNet50 [22]   18.6
                  AFF 特征
                                 SEResNet34 [22]   4.9                        参 考 文        献
                               SEResNet50+DNN      12.8
              RMSA+FFV+SNS
                               SEResNet34+DNN      12.5
                  融合特征 *                                         [1] 魏为民, 刘畅, 才智, 等. 合成语音检测方法的研究现状及展
                                 ResNet+DNN        10.8            望 [J]. 上海电力大学学报, 2022, 38(1): 75–81.
                                                                   Wei Weimin, Liu Chang, Cai Zhi, et al. Research status
              * 为本文所提融合特征。
                                                                   and prospect of synthetic speech detection[J]. Journal of
                 由此可见,不同的后端分类模型对特征的性能                              Shanghai University of Electric Power, 2022, 38(1): 75–81.
                                                                 [2] 任延珍, 刘晨雨, 刘武洋, 等. 语音伪造及检测技术研究综
             影响较大。这是因为不同的模型对不同数据类型特
                                                                   述 [J]. 信号处理, 2021, 37(12): 2412–2439.
             征的学习程度不同,好的模型将能更为充分高效学                                Ren Yanzhen, Liu Chenyu, Liu Wuyang, et al. A sur-
             习到关键信息。因此,接下来将开发适用所提融合                                vey on speech forgery and detection[J]. Journal of Signal
                                                                   Processing, 2021, 37(12): 2412–2439.
             特征的深度神经网络模型,提高特征利用率,进一步
                                                                 [3] Davis S, Mermelstein P. Comparison of parametric rep-
             强化识别合成语声的性能。                                          resentations for monosyllabic word recognition in con-
                 综合上述实验可见,基于声强和基频的变化                               tinuously spoken sentences[J]. IEEE Trans on Acoustics,
                                                                   Speech, and Signal Processing, 1980, 28(4): 357–366.
             程度和语声频谱特性数据特征化得到的 RMSA、
                                                                 [4] Chettri B, Sturm B L, Benetos E. Analysing replay
             FFV、SNS 特征皆可适用于合成语声识别任务。对                             spoofing countermeasure performance under varied con-
             比 3 种特征性能,在面对已知算法的数据时,三者                              ditions[C]//2018 IEEE 28th International Workshop on
                                                                   Machine Learning for Signal Processing. IEEE, 2018: 1–6.
             都拥有较好的性能,能较好地实现合成语声的识别。
                                                                 [5] Hanilçi C. Linear prediction residual features for auto-
             而面对训练集中没有的新算法干扰时,SNS 特征的                              matic speaker verification anti-spoofing[J]. Multimedia
             泛化性能最优,RMSA特征其次,FFV特征最差,三                             Tools and Applications, 2018, 77(13): 16099–16111.
             者通过融合后的性能最佳。                                        [6] Sanchez J, Saratxaga I, Hernaez I, et al. Toward a univer-
                                                                   sal synthetic speech spoofing detection using phase infor-
                                                                   mation[J]. IEEE Transactions on Information Forensics &
             4 结论                                                  Security, 2015, 10(4): 810–820.
                                                                 [7] Tian X, Wu Z, Xiao X, et al. Spoofing detection from
                 为实现利用声学特性实现合成语声识别的目                               a feature representation perspective[C]//2016 IEEE In-
             标,本文着重论述了基于声学特性的声学特征的提                                ternational Conference on Acoustics, Speech and Signal
                                                                   Processing. IEEE, 2016: 2119–2123.
             取和设计算法,开展了深度学习实验验证所提特征
                                                                 [8] Todisco M, Delgado H, Evans N. Constant Q cepstral coef-
             的有效性。实验结果表明,基于声强、基频变化程度                               ficients: a spoofing countermeasure for automatic speaker
   139   140   141   142   143   144   145   146   147   148   149