Page 35 - 《应用声学》2023年第1期
P. 35

第 42 卷 第 1 期             万伊等: 基于 Transformer 编码器的合成语声检测系统                                    31


             达到了最佳性能。由于合成语声检测是为了判断输                            间的个数,注意头数目过少,则从特征中学习到信息
             入语声是自然语声还是合成语声,更关注输入特征                            不足,而过多则可能会学习到与合成语声检测无关
             的内部相关性与长期依赖性,而非抽象的语义信息,                           的干扰信息。
             因此浅层的编码器对合成语声检测更加有效。而在
                                                                   根据表 2,Transformer 编码器选择注意头数目
             编码器层数 N 相同的条件下,系统选择不同的注意
                                                               M = 2、编码器层数N = 1时,合成语声检测系统在
             头数目M 对EER和t-DCF两种性能指标的影响并
                                                               EER和t-DCF两种指标上都取得了最小值,模型参
             不显著。多头自注意力机制的目的是在不同的表示
             子空间中分别进行自注意力操作,使模型学习到来                            数量也仅为 0.082 M。后文对合成语声检测系统的
             自不同表示子空间的信息。注意头数目代表了子空                            研究也都将基于此编码器结构。


                          表 2   不同结构编码器的合成语声检测系统在 ASVspoof2019-LA 测试集上的性能
                  Table 2 Results of spoofing countermeasure systems with different encoder architectures
                  on the evaluation set of the ASVspoof2019-LA dataset

                                       EER/%                                t-DCF
                                                                                                   参数量
                          M = 1    M = 2    M = 4    M = 6    M = 1     M = 2    M = 4    M = 6
                  N = 1    3.64     3.13     3.90     3.71    0.0750   0.0708    0.1009   0.0992  0.082 M
                  N = 2    5.34     6.91     7.45     6.40    0.1324    0.1437   0.1415   0.1369  0.128 M
                  N = 3    7.14     5.93     8.50     6.65    0.1525    0.1402   0.1595   0.1367  0.174 M
                  N = 4    7.56     6.65     7.62     8.89    0.1649    0.1497   0.1548   0.1591  0.220 M
                  N = 5    8.13     5.23     5.87     6.23    0.1800    0.1362   0.1551   0.1478  0.266 M
                  N = 6    9.94     5.70     6.81     6.10    0.1735    0.1445   0.1596   0.1494  0.312 M


             3.2 基于Transformer编码器的合成语声检测系                      问题,需要提高系统的泛化性能,以应对未知算法的
                  统性能                                          攻击。
                 表 3 中给出了在不同声学特征下,基于 Trans-                        得到本文最佳结果的为 LFCC+TE 系统,在
             former 编码器的合成语声检测系统在 ASVspoof                     测 试 集 上 的 EER 和 t-DCF 指 标 分 别 为 3.13% 和
             2019-LA 数据集上得到的实验结果,其中参数量差                        0.0708,比 ASVspoof2019 挑战赛 LA 场景下的基线
             异是由输入特征维度不同导致的。系统的名称由输                            系统 B2 分别降低了 61.31% 和 66.54%,比最佳的
             入特征和分类器名称组成,仅考虑基于机器学习的                            LFCC+LCNN 系 统 分 别 降 低 了 38.14% 和 29.2%,
             模型的参数量。TE代表本文所使用的Transformer                      证明了 Transformer 编码器对于合成语声检测的
             编码器模型。其中 B1 和 B2 分别是 ASVspoof2019                 有效性。同时,LCNN 模型中为了防止模型过拟
             挑战赛提供的两类基线模型               [8] ,LFCC-LCNN  [14]   合,加入了较大的全连接层,导致模型参数量
             是 ASVspoof2019 挑战赛 LA 场景中最佳的单一系                   较大,为 10.22 M,而本文所提出的 LFCC+TE
             统,即非融合系统。                                         模型参数量为 0.082 M,仅为 LFCC+LCNN 模型
                 从表 3中可看出,本文提出的基于 Transformer                  的0.78%。
             编码器的合成语声检测系统,在 LFCC 和 MGD 特                           为了验证本文所提系统的有效性,表 4 中对
             征下的 t-DCF 指标均超过了基线系统 B1 和 B2,且                    比了 LFCC+TE 系统与目前已有的、性能较好的
             LFCC 特征在 Transformer 编码器模型上表现出了                   单一合成语声检测系统的性能,系统名称分别由
             优势。同时,表 3 中还显示出了模型在验证集和测                          特征和分类器名称组成。其中 Zhang 等               [22]  提出的
             试集的性能差异,验证集上的 EER 和 t-DCF 指标                      LPS+TE-ResNet 系统,也是基于对数功率谱特征,
             都远低于测试集,说明未知的攻击算法会对系统的                            但与本文所采用的参数略有不同,其在测试集上
             检测性能产生较大的影响。因此对于合成语声检测                            的表现优于本文的Spec+TE系统,但从表4中可以
   30   31   32   33   34   35   36   37   38   39   40