Page 205 - 《应用声学》2023年第4期
P. 205

第 42 卷 第 4 期               孙晓川等: 应用 ResNet 和 CatBoost 检测重放语声                                867


                 表 4  不同算法在 POCO 数据集上检测结果                          本节也使用不同特征和分类器进行了实验,实
                Table 4   Detection results of different        验结果如表 5 所示。从该表中,可以看出使用相同
                methods on the POCO dataset                    特征时,ResNet+CatBoost 融合分类器效果最好,
                                                               优于单独的ResNet分类器和单独的 CatBoost分类
                          方法              AR/%    EER/%
                       Baseline [15]      73.59    27.02       器。此外,从整体上看,选择合适的声学特征中有助
                     GFCC+SVM  [13]       80.37    18.13       于提高分类器的检测能力。与使用其他两种声学特
                     STFT+CNN  [16]       82.15     –
                     CQCC+LCNN  [17]      82.45    17.78       征相比,GFCC声学特征在检测效果上表现更好。
                    CQCC+ResNet [18]      78.45    21.91       3.5  不同词汇和性别检测结果分析
                     Spec+ResNet [19]     80.13    19.86
                  MFCC+Light ResNet [20]  81.81    18.20           本节评估了词汇和性别对模型检测性能的影
                GFCC+ResNet+CatBoost      87.54   12.53        响。图5 显示了两个性别说话人的每个单词和所有
                                                               单词的检测准确率。对于男性说话人,所有词汇平
                     表 5   不同特征和分类器检测结果                        均准确率为 89.04%,单个词汇平均准确率均超过了

                Table 5 Detection results under different       80%。而女性说话人的检测准确率较差,所有词汇
                features and classifiers
                                                               平均准确率为 86.10%,有 6 个词汇的平均准确率低
                          方法             AR/%   EER/%          于80%,特别是‘end’的准确率只有61.54%。
                     MFCC+CatBoost       80.31   19.69
                                                                   通过研究错误判断的数据,找出了两个可能导
                     LFCC+CatBoost       80.91   19.09
                                                               致错误判断的原因。首先,一些说话人说话轻柔,这
                     GFCC+CatBoost       81.82   18.21
                  MFCC+ResNet+Softmax    82.89   17.08         使得他们的声音更容易被背景噪声所掩盖。其次,
                  LFCC+ResNet+Softmax    83.67   16.48
                                                               与男性相比,女性的声音频率更高。本文的方法使
                  GFCC+ResNet+Softmax    85.39   14.61
                                                               用了低频 GFCC特征,一些女性说话人语声中的信
                 MFCC+ResNet+CatBoost    84.74   15.34
                  LFCC+ResNet+CatBoost   85.55   14.53         息可能丢失。未来,将尝试提出一种更有效的基于
                 GFCC+ResNet+CatBoost    87.54   12.53
                                                               不同性别的检测方法。
                                               ӭ˔ឈලࣱکюᆸဋ           ਫ਼దឈලࣱکюᆸဋ
                                   100
                                    80
                                  юᆸဋ/%  60

                                    40
                                    20
                                    0
                                         open  spider  thong  honest  quick  pin  chair  run   chip  exaggerate  who  be  leather  his  arm  laugh  tip  sham  live  tourist  fat  sit  wolf  hop  dad  shout  busy  end  five  join  bug  division  gun  monkey  steer  about  funny  pink  bird  summer  kit  pay  paw  you  all

                                                        (a) ႄভᄊೝ฾юᆸဋ


                                               ӭ˔ឈලࣱکюᆸဋ           ਫ਼దឈලࣱکюᆸဋ
                                   100
                                    80
                                  юᆸဋ/%  60

                                    40
                                    20
                                    0
                                         open  spider  thong  honest  quick  pin  chair  run   chip  exaggerate  who  be  leather  his  arm  laugh  tip  sham  live  tourist  fat  sit  wolf  hop  dad  shout  busy  end  five  join  bug  division  gun  monkey  steer  about  funny  pink  bird  summer  kit  pay  paw  you  all

                                                        (b) ݙভᄊೝ฾юᆸဋ
                                              图 5  在不同词汇和性别下检测准确率
                                     Fig. 5 Detection accuracy under various words and genders
   200   201   202   203   204   205   206   207   208   209   210