Page 203 - 《应用声学》2023年第4期
P. 203

第 42 卷 第 4 期               孙晓川等: 应用 ResNet 和 CatBoost 检测重放语声                                865


             可以得到最优的 CatBoost 模型 (第 17∼ 18 行)          [23] 。  放语声检测算法的数据集,具体的数据集划分方式
             最后,通过 CatBoost 输出语声 X 是真实语声的概                     如表3所示。
             率 p (bonafide|X) 与重放语声的概率 p (replay |X)
             (第19行)。求二者的对数似然比公式如下:

                     Score(X) = ln(p(bonafide | X))
                                                                          ඡྐాܦ᣿໚٨
                                − ln(p(replay | X)).    (4)
                                                                      (a) RP-A஝૶ै҄᣿ሮ    (b) RC-A஝૶ै҄᣿ሮ
             3 实验与分析
                                                                         图 3  POCO 数据集的记录过程

             3.1 实验环境与数据                                           Fig. 3 Recording process of the POCO dataset
                 实验平台硬件配置:Intel(R) Core(TM) i7-                            表 2   POCO 数据集划分
             8750H CPU@ 2.2 GHz;32 GB 2667 MHz 内存;                  Table 2 Dataset partition for POCO
             RTX2070 Max-Q 独立显卡;64位 Windows 操作系
                                                                          真实声频数目 重放声频数目 总声频数目
             统。软件方面:Anaconda3为开发平台,深度学习开
                                                                    训练集      6652        6654     13306
             源框架 Pytorch 和语声特征提取框架 Spafe 为程序
                                                                    验证集       833        830       1663
             框架,Pycharm为软件环境。
                                                                    测试集       821        842       1663
                 为了验证本文方法的有效性,数据集选用公开
             数据集POCO(Pop Noise Corpus)      [15] 。因为数据集               表 3  ASVspoof2019 PA 数据集划分
             中 0226_5 和 0207_1 两个说话人部分录声数据丢                       Table 3  Dataset partition for ASVspoof
             失,本文选择完整录制的声频作为实验数据。实验                               2019 PA
             数据由 32 名女性和 31 名男性录制,录制者的英语
                                                                          真实声频数目      重放声频数目       总声频数目
             流利程度各不相同,口音也不同,年龄从 18 岁到 61
                                                                  训练集        5400        48,600      54000
             岁不等。每个人重复3次录制了包含44个音素的声
                                                                  验证集        5400        24,300      29700
             频。图 3 表示数据集 POCO 录制过程。本文用到的
                                                                  测试集       18090        116640     134730
             实验数据包含两种类型,分别是 RC-A和RP-A。前
             者是用 AT4040 传声器录制的高音质声频。该数据                        3.2  评价指标
             子集代表了具有 PN 的真正的说话人。说话人距离                              选择准确率 (Accuracy rate, AR) 与等错误率
             传声器 10 cm。RP-A 是用位于说话人和传声器之                       (Equal error rate, EER) 作为重放语声检测方法的
             间的TASCAM TM-AG1型号过滤器过滤说话人声                        主要评价指标。另外,在 ASVspoof2019 PA 数据集
             音后用 AT4040 传声器录制的声频。该子数据集模                        进行实验时,也使用了串联检测代价函数 (tandem
             拟了攻击者的窃听(eavesdropping)场景。在此场景                    detection cost function, t-DCF)作为指标   [25] 。
             中目标说话人的声音被较为完美录制并重放,录制                                AR 是预测正确的语声数占总语声数的比重,
             的重放语声中中间设备和环境的卷积和加性失真                             计算如下:
             信号较少。说话人距离传声器距离同样是 10 cm。                               AR =  #{正确拒绝的重放语声数}
             声频文件数量是 16632 个,每个声频文件包含一个                                          #{总语声数}
                                                                              #{正确接受的真实语声数}
             WAV格式的单词,采样率为 22.05 kHz。训练集、验                                 +                           .  (5)
                                                                                    #{总语声数}
             证集和测试集分别占总数据的 80%、10%、10%,具
                                                                   EER 通过调整阈值 θ 使得错误拒绝率 P miss 与
             体的划分如表2所示。
                                                               错误接受率P fa 相同时得到,如下:
                 此外,为了研究本文提出的方法对多种条件下
             重放语声的检测效果,本文也使用 ASVspoof2019                                 P miss (θ EER ) = P fa (θ EER ) ,  (6)
             PA数据集进行了实验          [24] 。该数据集是由英国爱丁              其中,θ EER 表示错误拒绝率 P miss 与错误接受率P fa
             堡大学语声技术研究中心发布的专门用于评估重                             相等时的检测系统阈值。
   198   199   200   201   202   203   204   205   206   207   208