Page 206 - 《应用声学》2023年第4期
P. 206

868                                                                                  2023 年 7 月


             3.6 不同语声帧选择及排序方法检测结果分析                            差较大,在该数据集上选择部分语声帧作为输入
                 在 POCO 数据集上,采用 4 种语声帧选择及排                     可能会丢失重要的信息。因此,选择最长声频提取
             序方法的实验结果如表6所示。从表中可以看出,使                           的 GFCC 特征矩阵的行数 220 作为所有 GFCC 特
             用本文提出的语声帧选择方法并按照 3 种方式排序                          征的行数,其他提取的 GFCC 特征填充 0 直到成为
             时检测效果与使用随机语声帧选择方法相比均有                             220×60 的特征矩阵。为了输出维度的匹配,Conv2
             所提升。在使用本文提出的语声帧选择方法时,3种                           层卷积核大小改为9×3,其他设置相同。与其他检测
             帧排序方法中按帧序号排序检测效果最好,按能量                            算法进行了整体上的检测性能比较,如表8所示。与
             从低到高排序效果次之,按能量从高到低排序效果                            基线方法 CQCC+GMM、LFCC+GMM 相比,本文
             最差。结果说明合理选择语声数据帧并且按照原有                            方法的 EER 与 t-DCF 均有明显的改进。本文方法
             的帧序号排序可以提高重放语声检测的效果。                              与同样使用 ResNet的STFT+ResNet相比,检测性
                                                               能也有比较明显的改进。最后,与其他两种基于深
                 表 6  不同语声帧选择及排序方法的检测结果                        度学习分类器方法的 Spec+CNN、STFT-CapsNet
                Table 6 Detection results under different
                                                               相比,本文提出的方法也有一定的提高。上述实
                voice frame selection and sorting methods
                                                               验结果说明虽然本文提出的方法不是专门针对
                   语声帧选择及排序方法             AR/%    EER/%        ASVspoof2019 PA数据集提出,也对ASVspoof2019
                   随机语声帧按帧序号排序            81.51    18.47       PA 数据集中多种条件的重放语声攻击具有一定的
                高能语声帧按能量从高到低排序            85.93    14.14       防御能力。
                高能语声帧按能量从低到高排序            86.32    13.78
                                                                  表 8   不同算法在 ASVspoof2019 PA 数据集
                   高能语声帧按帧序号排序            87.54   12.53
                                                                  上检测结果
             3.7 不同频率范围下的检测结果                                     Table 8    Detection results of different
                                                                  methods on the ASVspoof2019 PA dataset
                 在 POCO 数据集上,分别使用文献 [10] 中设置
             的0∼40 Hz,文献[13]中设置的0∼103 Hz 以及最高                                方法             EER/%    t-DCF
             频率为采样率一半的 11025 Hz 三种范围的 GFCC                              CQCC+GMM  [25]       11.04   0.2454
             特征,检测的性能如表 7 所示。从表中可以看出使                                   LFCC+GMM  [25]       13.54   0.3017
             用0∼40 Hz 范围的 GFCC特征时,AR 和 EER 效果                            Spec+CNN [26]       5.98    0.1672
             最好,说明低频区域的声学特征区分真实语声和重                                    STFT+ResNet [27]      7.75    0.2012
             放语声的效果更好。                                                 STFT-CapsNet [27]     6.41    0.1509
                                                                   GFCC+ResNet+CatBoost      4.92   0.1418
                     表 7   不同频率范围下的检测结果
                                                                   为评估录声距离和重放设备的质量对重放
                Table 7 Detection results under different
                frequency ranges                               语声检测效果的影响, 也进行了相应的实验。
                                                               ASVspoof2019 PA数据集中重放语声攻击类型有 9
                   频率范围            AR/%         EER/%          种,由两个字母表示。其中第一个字母表示录音设
                  0∼11025 Hz       81.13         18.86         备与说话人的距离 (A:10∼50 cm;B:50∼ 100 cm;

                   0∼103 Hz        83.01         16.99         C:> 100 cm),第二个字母代表重放设备的质量(A:
                                                               完美;B:高;C:低)。表 9 显示了本文提出的方法和
                   0∼40 Hz         87.54        12.53
                                                               基线方法在不同重放攻击类型下的比较结果。因为
             3.8 ASVspoof2019 PA 数据集上的检测结果                     表中涉及的语声全部为重放语声,采用准确率作为
                  分析                                           评价指标。由表中可以看出,攻击类型为AA、BA和
                 为研究本文提出的方法在多种重放条件下的                           CA 时,两种方法的准确率均比较低,而攻击类型为
             检测效果,在ASVspoof2019 PA 数据集上进行了实                    AB、BB 和 CB 时,两种方法的准确率明显提高。这
             验。因为 ASVspoof2019 PA 数据集中声频长度相                    表明重放设备的质量越高,重放语声检测的难度越
   201   202   203   204   205   206   207   208   209   210   211