Page 206 - 《应用声学》2023年第4期
P. 206
868 2023 年 7 月
3.6 不同语声帧选择及排序方法检测结果分析 差较大,在该数据集上选择部分语声帧作为输入
在 POCO 数据集上,采用 4 种语声帧选择及排 可能会丢失重要的信息。因此,选择最长声频提取
序方法的实验结果如表6所示。从表中可以看出,使 的 GFCC 特征矩阵的行数 220 作为所有 GFCC 特
用本文提出的语声帧选择方法并按照 3 种方式排序 征的行数,其他提取的 GFCC 特征填充 0 直到成为
时检测效果与使用随机语声帧选择方法相比均有 220×60 的特征矩阵。为了输出维度的匹配,Conv2
所提升。在使用本文提出的语声帧选择方法时,3种 层卷积核大小改为9×3,其他设置相同。与其他检测
帧排序方法中按帧序号排序检测效果最好,按能量 算法进行了整体上的检测性能比较,如表8所示。与
从低到高排序效果次之,按能量从高到低排序效果 基线方法 CQCC+GMM、LFCC+GMM 相比,本文
最差。结果说明合理选择语声数据帧并且按照原有 方法的 EER 与 t-DCF 均有明显的改进。本文方法
的帧序号排序可以提高重放语声检测的效果。 与同样使用 ResNet的STFT+ResNet相比,检测性
能也有比较明显的改进。最后,与其他两种基于深
表 6 不同语声帧选择及排序方法的检测结果 度学习分类器方法的 Spec+CNN、STFT-CapsNet
Table 6 Detection results under different
相比,本文提出的方法也有一定的提高。上述实
voice frame selection and sorting methods
验结果说明虽然本文提出的方法不是专门针对
语声帧选择及排序方法 AR/% EER/% ASVspoof2019 PA数据集提出,也对ASVspoof2019
随机语声帧按帧序号排序 81.51 18.47 PA 数据集中多种条件的重放语声攻击具有一定的
高能语声帧按能量从高到低排序 85.93 14.14 防御能力。
高能语声帧按能量从低到高排序 86.32 13.78
表 8 不同算法在 ASVspoof2019 PA 数据集
高能语声帧按帧序号排序 87.54 12.53
上检测结果
3.7 不同频率范围下的检测结果 Table 8 Detection results of different
methods on the ASVspoof2019 PA dataset
在 POCO 数据集上,分别使用文献 [10] 中设置
的0∼40 Hz,文献[13]中设置的0∼103 Hz 以及最高 方法 EER/% t-DCF
频率为采样率一半的 11025 Hz 三种范围的 GFCC CQCC+GMM [25] 11.04 0.2454
特征,检测的性能如表 7 所示。从表中可以看出使 LFCC+GMM [25] 13.54 0.3017
用0∼40 Hz 范围的 GFCC特征时,AR 和 EER 效果 Spec+CNN [26] 5.98 0.1672
最好,说明低频区域的声学特征区分真实语声和重 STFT+ResNet [27] 7.75 0.2012
放语声的效果更好。 STFT-CapsNet [27] 6.41 0.1509
GFCC+ResNet+CatBoost 4.92 0.1418
表 7 不同频率范围下的检测结果
为评估录声距离和重放设备的质量对重放
Table 7 Detection results under different
frequency ranges 语声检测效果的影响, 也进行了相应的实验。
ASVspoof2019 PA数据集中重放语声攻击类型有 9
频率范围 AR/% EER/% 种,由两个字母表示。其中第一个字母表示录音设
0∼11025 Hz 81.13 18.86 备与说话人的距离 (A:10∼50 cm;B:50∼ 100 cm;
0∼103 Hz 83.01 16.99 C:> 100 cm),第二个字母代表重放设备的质量(A:
完美;B:高;C:低)。表 9 显示了本文提出的方法和
0∼40 Hz 87.54 12.53
基线方法在不同重放攻击类型下的比较结果。因为
3.8 ASVspoof2019 PA 数据集上的检测结果 表中涉及的语声全部为重放语声,采用准确率作为
分析 评价指标。由表中可以看出,攻击类型为AA、BA和
为研究本文提出的方法在多种重放条件下的 CA 时,两种方法的准确率均比较低,而攻击类型为
检测效果,在ASVspoof2019 PA 数据集上进行了实 AB、BB 和 CB 时,两种方法的准确率明显提高。这
验。因为 ASVspoof2019 PA 数据集中声频长度相 表明重放设备的质量越高,重放语声检测的难度越