Page 36 - 《应用声学》2023年第1期
P. 36
32 2023 年 1 月
表 3 不同合成语声检测系统在 ASVspoof2019-LA 数据集上的性能
Table 3 Results of different spoofing countermeasure systems on the
ASVspoof2019-LA dataset
验证集 测试集
系统名称 参数量
EER/% t-DCF EER/% t-DCF
B1: CQCC + GMM[8] 2.71 0.0663 9.57 0.2366
B2: LFCC + GMM[8] 0.43 0.0123 8.09 0.2116
LFCC + LCNN[14] 10.22M 0.16 0.0043 5.06 0.1000
LFCC + TE 0.082M 0.47 0.0134 3.13 0.0708
Spec + TE 0.094M 0.24 0.0071 10.81 0.2696
CQCC + TE 0.084M 0.31 0.0099 9.42 0.2159
MGD + TE 0.094M 0.0 0.0 7.60 0.1826
表 4 与 现 有 的 单 一 合 成 语 声 检 测 系 统 在 低的 EER与 t-DCF。Li 等 [29] 提出的基于 LFCC特
ASVspoof2019-LA 测试集上的性能比较 征的系统,其后端分类器选择了改进的残差网络,系
Table 4 Performance comparison with ex- 统整体参数量为 0.92M,在 ASVspoof2019-LA 测试
isting single systems on the evaluation set 集上具有更低的EER,但是其t-DCF指标均略高于
of the ASVspoof2019-LA dataset
本文提出的 LFCC+TE 系统,说明在考虑了决策风
险的条件下,LFCC+TE 系统可以在较小的参数量
系统名称 EER/% t-DCF
MFCC + ResNet [12] 9.33 0.2042 下获得更好的检测性能。
CQCC + ResNet [12] 7.69 0.2166
4 结论
Spec + ResNet [12] 9.68 0.2741
LPS + TEResNet [22] 6.02 —
本文提出了一种基于 Transformer 编码器的合
LFCC + TE-ResNet [22] 8.58 0.2024
成语声检测系统,通过自注意力机制,学习输入特
FFT + LCNN [14] 4.53 0.1028
征内部的长期依赖关系与时间相关性。本文还探
CQT-MMPS + LCNN [27] 5.99 0.1760
CQT-MMPS + ResNet [27] 3.72 0.1190 讨了编码器结构对合成语声检测系统的影响,并
STFT-MGD-GCRNN + PLDA [28] 3.85 0.0952 据此在原始编码器模型基础上减少了编码器层数
LFCC + SE-Res2Net50 [29] 2.87 0.0790 和注意力操作的次数,缩小了模型参数量。合成语
CQT + SE-Res2Net50 [29] 2.50 0.0743 声检测的目的是判别自然语声与合成语声,更注
LFCC + TE 3.13 0.0708
重于检测语声中的人工篡改信息,而非抽象的语义
信息,使用浅层的 Transformer 编码器模型,可以在
看出,本文最佳的 LFCC+TE 系统仍具有比其更
模型参数量较小的情况下,得到较好的合成语声检
低的 EER。该系统对输入数据进行数据增强后,
测效果。本文中提出的基于 LFCC 特征的系统,在
将 Transformer 编码器用于特征的进一步提取,但
ASVspoof2019-LA 测试集上的 EER 和 t-DCF 指标
并未对编码器原始结构进行改动。根据文献 [22],
分别可以达到 3.13% 和0.0708,证实了 Transformer
本文还搭建了 LFCC+TE-ResNet 系统,并在表 4
编码器结构对于合成语声检测问题的有效性,同时
中给出了其在 ASVspoof2019-LA 测试集上的性能, 模型参数量仅为0.082 M。
其系统整体参数量为 27.62 M。除此之外,表 4
中系统的 EER 与 t-DCF 结果均来自原论文,原论
参 考 文 献
文中未给出的结果用 ‘—’ 代表。从表 4 中可以看
出,在 ASVspoof2019-LA 测试集上,本文所提的
[1] van den Oord A, Dieleman S, Zen H, et al. WaveNet: a
LFCC+TE 系统比 LFCC+TE-ResNet 系统具有更 generative model for raw audio[J]. arXiv Preprint, arXiv: