Page 36 - 《应用声学》2023年第1期
P. 36

32                                                                                   2023 年 1 月


                                表 3  不同合成语声检测系统在 ASVspoof2019-LA 数据集上的性能
                           Table 3 Results of different spoofing countermeasure systems on the
                           ASVspoof2019-LA dataset

                                                              验证集                       测试集
                             系统名称              参数量
                                                         EER/%      t-DCF         EER/%      t-DCF
                        B1: CQCC + GMM[8]                 2.71      0.0663         9.57      0.2366
                        B2: LFCC + GMM[8]                 0.43      0.0123         8.09      0.2116
                         LFCC + LCNN[14]      10.22M      0.16      0.0043         5.06      0.1000
                            LFCC + TE         0.082M      0.47      0.0134         3.13      0.0708
                            Spec + TE         0.094M      0.24      0.0071         10.81     0.2696
                            CQCC + TE         0.084M      0.31      0.0099         9.42      0.2159
                            MGD + TE          0.094M       0.0       0.0           7.60      0.1826


                表 4    与 现 有 的 单 一 合 成 语 声 检 测 系 统 在           低的 EER与 t-DCF。Li 等      [29]  提出的基于 LFCC特
                ASVspoof2019-LA 测试集上的性能比较                      征的系统,其后端分类器选择了改进的残差网络,系
                Table 4 Performance comparison with ex-        统整体参数量为 0.92M,在 ASVspoof2019-LA 测试
                isting single systems on the evaluation set    集上具有更低的EER,但是其t-DCF指标均略高于
                of the ASVspoof2019-LA dataset
                                                               本文提出的 LFCC+TE 系统,说明在考虑了决策风
                                                               险的条件下,LFCC+TE 系统可以在较小的参数量
                系统名称                       EER/%   t-DCF
                MFCC + ResNet  [12]          9.33  0.2042      下获得更好的检测性能。
                CQCC + ResNet [12]           7.69  0.2166
                                                               4 结论
                Spec + ResNet  [12]          9.68  0.2741
                LPS + TEResNet  [22]         6.02   —
                                                                   本文提出了一种基于 Transformer 编码器的合
                LFCC + TE-ResNet  [22]       8.58  0.2024
                                                               成语声检测系统,通过自注意力机制,学习输入特
                FFT + LCNN  [14]             4.53  0.1028
                                                               征内部的长期依赖关系与时间相关性。本文还探
                CQT-MMPS + LCNN  [27]        5.99  0.1760
                CQT-MMPS + ResNet  [27]      3.72  0.1190      讨了编码器结构对合成语声检测系统的影响,并
                STFT-MGD-GCRNN + PLDA  [28]  3.85  0.0952      据此在原始编码器模型基础上减少了编码器层数
                LFCC + SE-Res2Net50  [29]    2.87  0.0790      和注意力操作的次数,缩小了模型参数量。合成语
                CQT + SE-Res2Net50  [29]    2.50   0.0743      声检测的目的是判别自然语声与合成语声,更注
                LFCC + TE                    3.13  0.0708
                                                               重于检测语声中的人工篡改信息,而非抽象的语义
                                                               信息,使用浅层的 Transformer 编码器模型,可以在
             看出,本文最佳的 LFCC+TE 系统仍具有比其更
                                                               模型参数量较小的情况下,得到较好的合成语声检
             低的 EER。该系统对输入数据进行数据增强后,
                                                               测效果。本文中提出的基于 LFCC 特征的系统,在
             将 Transformer 编码器用于特征的进一步提取,但
                                                               ASVspoof2019-LA 测试集上的 EER 和 t-DCF 指标
             并未对编码器原始结构进行改动。根据文献 [22],
                                                               分别可以达到 3.13% 和0.0708,证实了 Transformer
             本文还搭建了 LFCC+TE-ResNet 系统,并在表 4
                                                               编码器结构对于合成语声检测问题的有效性,同时
             中给出了其在 ASVspoof2019-LA 测试集上的性能,                   模型参数量仅为0.082 M。
             其系统整体参数量为 27.62 M。除此之外,表 4
             中系统的 EER 与 t-DCF 结果均来自原论文,原论
                                                                              参 考 文        献
             文中未给出的结果用 ‘—’ 代表。从表 4 中可以看
             出,在 ASVspoof2019-LA 测试集上,本文所提的
                                                                 [1] van den Oord A, Dieleman S, Zen H, et al. WaveNet: a
             LFCC+TE 系统比 LFCC+TE-ResNet 系统具有更                      generative model for raw audio[J]. arXiv Preprint, arXiv:
   31   32   33   34   35   36   37   38   39   40   41