Page 205 - 《应用声学》2023年第4期
P. 205
第 42 卷 第 4 期 孙晓川等: 应用 ResNet 和 CatBoost 检测重放语声 867
表 4 不同算法在 POCO 数据集上检测结果 本节也使用不同特征和分类器进行了实验,实
Table 4 Detection results of different 验结果如表 5 所示。从该表中,可以看出使用相同
methods on the POCO dataset 特征时,ResNet+CatBoost 融合分类器效果最好,
优于单独的ResNet分类器和单独的 CatBoost分类
方法 AR/% EER/%
Baseline [15] 73.59 27.02 器。此外,从整体上看,选择合适的声学特征中有助
GFCC+SVM [13] 80.37 18.13 于提高分类器的检测能力。与使用其他两种声学特
STFT+CNN [16] 82.15 –
CQCC+LCNN [17] 82.45 17.78 征相比,GFCC声学特征在检测效果上表现更好。
CQCC+ResNet [18] 78.45 21.91 3.5 不同词汇和性别检测结果分析
Spec+ResNet [19] 80.13 19.86
MFCC+Light ResNet [20] 81.81 18.20 本节评估了词汇和性别对模型检测性能的影
GFCC+ResNet+CatBoost 87.54 12.53 响。图5 显示了两个性别说话人的每个单词和所有
单词的检测准确率。对于男性说话人,所有词汇平
表 5 不同特征和分类器检测结果 均准确率为 89.04%,单个词汇平均准确率均超过了
Table 5 Detection results under different 80%。而女性说话人的检测准确率较差,所有词汇
features and classifiers
平均准确率为 86.10%,有 6 个词汇的平均准确率低
方法 AR/% EER/% 于80%,特别是‘end’的准确率只有61.54%。
MFCC+CatBoost 80.31 19.69
通过研究错误判断的数据,找出了两个可能导
LFCC+CatBoost 80.91 19.09
致错误判断的原因。首先,一些说话人说话轻柔,这
GFCC+CatBoost 81.82 18.21
MFCC+ResNet+Softmax 82.89 17.08 使得他们的声音更容易被背景噪声所掩盖。其次,
LFCC+ResNet+Softmax 83.67 16.48
与男性相比,女性的声音频率更高。本文的方法使
GFCC+ResNet+Softmax 85.39 14.61
用了低频 GFCC特征,一些女性说话人语声中的信
MFCC+ResNet+CatBoost 84.74 15.34
LFCC+ResNet+CatBoost 85.55 14.53 息可能丢失。未来,将尝试提出一种更有效的基于
GFCC+ResNet+CatBoost 87.54 12.53
不同性别的检测方法。
ӭ˔ឈලࣱکюᆸဋ ਫ਼దឈලࣱکюᆸဋ
100
80
юᆸဋ/% 60
40
20
0
open spider thong honest quick pin chair run chip exaggerate who be leather his arm laugh tip sham live tourist fat sit wolf hop dad shout busy end five join bug division gun monkey steer about funny pink bird summer kit pay paw you all
(a) ႄভᄊೝюᆸဋ
ӭ˔ឈලࣱکюᆸဋ ਫ਼దឈලࣱکюᆸဋ
100
80
юᆸဋ/% 60
40
20
0
open spider thong honest quick pin chair run chip exaggerate who be leather his arm laugh tip sham live tourist fat sit wolf hop dad shout busy end five join bug division gun monkey steer about funny pink bird summer kit pay paw you all
(b) ݙভᄊೝюᆸဋ
图 5 在不同词汇和性别下检测准确率
Fig. 5 Detection accuracy under various words and genders