Page 203 - 《应用声学》2023年第4期
P. 203
第 42 卷 第 4 期 孙晓川等: 应用 ResNet 和 CatBoost 检测重放语声 865
可以得到最优的 CatBoost 模型 (第 17∼ 18 行) [23] 。 放语声检测算法的数据集,具体的数据集划分方式
最后,通过 CatBoost 输出语声 X 是真实语声的概 如表3所示。
率 p (bonafide|X) 与重放语声的概率 p (replay |X)
(第19行)。求二者的对数似然比公式如下:
Score(X) = ln(p(bonafide | X))
ඡྐాܦ٨
− ln(p(replay | X)). (4)
(a) RP-Aै҄ሮ (b) RC-Aै҄ሮ
3 实验与分析
图 3 POCO 数据集的记录过程
3.1 实验环境与数据 Fig. 3 Recording process of the POCO dataset
实验平台硬件配置:Intel(R) Core(TM) i7- 表 2 POCO 数据集划分
8750H CPU@ 2.2 GHz;32 GB 2667 MHz 内存; Table 2 Dataset partition for POCO
RTX2070 Max-Q 独立显卡;64位 Windows 操作系
真实声频数目 重放声频数目 总声频数目
统。软件方面:Anaconda3为开发平台,深度学习开
训练集 6652 6654 13306
源框架 Pytorch 和语声特征提取框架 Spafe 为程序
验证集 833 830 1663
框架,Pycharm为软件环境。
测试集 821 842 1663
为了验证本文方法的有效性,数据集选用公开
数据集POCO(Pop Noise Corpus) [15] 。因为数据集 表 3 ASVspoof2019 PA 数据集划分
中 0226_5 和 0207_1 两个说话人部分录声数据丢 Table 3 Dataset partition for ASVspoof
失,本文选择完整录制的声频作为实验数据。实验 2019 PA
数据由 32 名女性和 31 名男性录制,录制者的英语
真实声频数目 重放声频数目 总声频数目
流利程度各不相同,口音也不同,年龄从 18 岁到 61
训练集 5400 48,600 54000
岁不等。每个人重复3次录制了包含44个音素的声
验证集 5400 24,300 29700
频。图 3 表示数据集 POCO 录制过程。本文用到的
测试集 18090 116640 134730
实验数据包含两种类型,分别是 RC-A和RP-A。前
者是用 AT4040 传声器录制的高音质声频。该数据 3.2 评价指标
子集代表了具有 PN 的真正的说话人。说话人距离 选择准确率 (Accuracy rate, AR) 与等错误率
传声器 10 cm。RP-A 是用位于说话人和传声器之 (Equal error rate, EER) 作为重放语声检测方法的
间的TASCAM TM-AG1型号过滤器过滤说话人声 主要评价指标。另外,在 ASVspoof2019 PA 数据集
音后用 AT4040 传声器录制的声频。该子数据集模 进行实验时,也使用了串联检测代价函数 (tandem
拟了攻击者的窃听(eavesdropping)场景。在此场景 detection cost function, t-DCF)作为指标 [25] 。
中目标说话人的声音被较为完美录制并重放,录制 AR 是预测正确的语声数占总语声数的比重,
的重放语声中中间设备和环境的卷积和加性失真 计算如下:
信号较少。说话人距离传声器距离同样是 10 cm。 AR = #{正确拒绝的重放语声数}
声频文件数量是 16632 个,每个声频文件包含一个 #{总语声数}
#{正确接受的真实语声数}
WAV格式的单词,采样率为 22.05 kHz。训练集、验 + . (5)
#{总语声数}
证集和测试集分别占总数据的 80%、10%、10%,具
EER 通过调整阈值 θ 使得错误拒绝率 P miss 与
体的划分如表2所示。
错误接受率P fa 相同时得到,如下:
此外,为了研究本文提出的方法对多种条件下
重放语声的检测效果,本文也使用 ASVspoof2019 P miss (θ EER ) = P fa (θ EER ) , (6)
PA数据集进行了实验 [24] 。该数据集是由英国爱丁 其中,θ EER 表示错误拒绝率 P miss 与错误接受率P fa
堡大学语声技术研究中心发布的专门用于评估重 相等时的检测系统阈值。