Page 204 - 《应用声学》2023年第4期
P. 204

866                                                                                  2023 年 7 月


             3.3 特征嵌入可视化                                       声。图4(b)∼(d)所示是通过ResNet分别将MFCC、
                 采 用 t 分 布 随 机 近 邻 嵌 入 (t-distributed          LFCC、GFCC 进一步提取后的特征。在图 4(d) 中,
             stochastic neighbor embedding, t-SNE) 可视化方        通过 ResNet 和 GFCC 出现了一个关于真实语声的
             法对不同的声学特征进行可视化。实验中使用了                             紧凑聚类,四周只存在少量重放语声的点,这表
             来自POCO测试集的 1663条语声,包括 842条重放                      明真实语声有很好的表征。图 4(b)∼(c) 中,真实语
             语声和 821 条真实语声。图 4 显示了不同语声特征                       声的点与重放语声的点相混合,未出现紧凑的聚
             的 T-SNE 特征可视化结果。在图 4(a) 中代表真实                     类。因此,经过 ResNet 提取的 GFCC 特征是后续
             语声和重放语声的点是高度分散,相互交错,这                             CatBoost分类的合适特征。
             意味着基线方法中的 LFAE 特征难以区分两种语

                        50                                        40
                                                   ᧘ஊឦܦ                                      ᧘ஊឦܦ
                        40                                        30
                                                   ᄾࠄឦܦ                                      ᄾࠄឦܦ
                        30                                        20
                        20                                        10
                        10                                         0
                     ፥ए2  0                                     ፥ए2  -10
                      -10                                       -20
                      -20                                       -30
                      -30                                       -40
                      -40                                       -50
                        -50 -40 -30 -20 -10 0  10  20  30  40  50  -40-30-20-10  0  10  20  30  40  50  60
                                        ፥ए1                                       ፥ए1
                                     (a) LFAE                                                                   (b) MFCC
                       60                                         50
                                                   ᧘ஊឦܦ                                       ᧘ஊឦܦ
                                                   ᄾࠄឦܦ           40                          ᄾࠄឦܦ
                       40
                                                                  30
                                                                  20
                       20
                                                                  10
                     ፥ए2  0                                     ፥ए2  0
                                                                 -10
                      -20
                                                                 -20
                                                                 -30
                      -40
                                                                 -40
                      -60                                        -50
                        -60   -40  -20   0    20    40   60        -50 -40 -30 -20 -10  0  10  20  30  40
                                        ፥ए1                                        ፥ए1
                                      (c) LFCC                                                                    (d) GFCC
                                       图 4  对重放语声和真实语声不同特征的 T-SNE 可视化
                           Fig. 4 T-SNE visualization of different features for replay voice and genuine voice

             3.4 不同算法检测结果分析                                    低频 STFT 特征以及 CNN 分类器的方法 AR 提升

                 为了验证该模型在重放语声检测上的有效                            了 5.39%。本文方法的检测效果也超过了目前效
             性,与其他检测算法进行了比较,如表 4 所示。                           果最好的 CQCC+LCNN 方法。最后,与其他 3 种
             从表中可知,GFCC+ResNet+CatBoost 方法检测                   基于 ResNet 的方法     [18−20]  相比,本文的方法也有
             效果最好。与基线相比,本文提出的方法的 AR                            明显优势。上述实验结果说明目标说话人的声音
             提高了 13.95%,EER 降低了 14.49%。与同样使用                   被较为完美录制并重放情况下,本文提出的方法
             GFCC 特征的 GFCC+SVM 方法相比,本文提出                       在检测重放语声性能上优于经典重放语声检测
             的方法也有明显提高。此外,本文的方法比使用                             方法。
   199   200   201   202   203   204   205   206   207   208   209