Page 34 - 《应用声学》2023年第1期
P. 34
30 2023 年 1 月
cm
需要注意的是,作为合成语声训练数据的自然语声 战赛中 t-DCF 参数设置的详细信息。P miss (τ cm ) 和
cm
与 ASVspoof2019-LA 数据集中的自然语声数据不 P fa (τ cm ) 分别代表阈值 s = τ cm 时,CM 系统的丢
重叠。 失率和误报率,如式(6)和式(7)所示:
P cm (τ cm )
表 1 ASVspoof2019-LA 数据集组成 miss
# {bona fide trials with CM score6τ cm }
Table 1 Partitions of the ASVspoof2019- = , (6)
# {Total bona fide trials}
LA dataset
cm
P fa (τ cm )
自然语声 合成语声 # {spoof trials with CM score > τ cm }
= , (7)
语声数据数目 语声数据数目 攻击算法编号 # {Total spoof trials}
训练集 2580 22800 A01–A06 其中,# 代表符合括号中所描述条件的语声数目。
cm
验证集 2548 22296 A01–A06 丢失率P miss (s)随着阈值s的增大而单调递增,误报
cm
测试集 7355 63882 A07–A19 率P fa (s)随着阈值增大而单调递减。
cm
cm
EER 是使 P miss (s) 和 P fa (s) 同时最小的错误
率,用于衡量单一 CM系统的性能,本文中作为辅助
ASVspoof2019-LA 数据集划分为 3 个子集:训
评价指标。
练集、验证集和测试集。训练集和验证集中的合成
语声是由编号 A01-A06 的算法处理得到,其中包括 2.3 训练策略及参数设置
4 种语声合成算法和 2 种语声转换算法。测试集中 本文设定线性投影后得到的嵌入特征维度为
的合成语声是由编号 A07-A19 的算法处理得到,其 D model = 60,根据经验值设定前馈神经网络隐藏层
中包括 7 种语声合成算法和 6 种语声转换算法,且 单元数 D ff = 256,约为嵌入特征维度的 4 倍。分
包含了两种在训练集中出现过的已知算法,其余均 别在编码器的多头自注意力层和全连接层后加入
为未知算法。每个子集中自然语声与合成语声的比 Dropout层以防止模型过拟合。
例约为 1 : 9。本文中训练集用于网络模型的训练, 网络训练使用带权重的交叉熵作为损失函数,
验证集用于模型选择,在验证集上性能最优的模型 来消除训练集中自然语声与合成语声之间数据量
用于测试最终结果。 不平衡带来的影响,权值设为9 : 1。共训练500个周
期,批处理大小为32。使用AdamW [26] 优化器对模
2.2 评价指标
型进行优化,其中优化器参数 β 1 = 0.9,β 2 = 0.999,
合成语声检测系统的评价指标有两种,分
权重衰减值设为 0.01,每个训练周期学习率初始值
别是串联检测代价函数 (tandem detection cost
设置为5 × 10 −5 。
function, t-DCF) 和 等 错 误 率 (Equal error rate,
EER) [24] ,根据分类器输出的语声得分情况来计 3 实验结果
算这两类评价指标。
t-DCF 是基于 ASVspoof2019 挑战赛提出的一 3.1 Transformer编码器结构对合成语声检测系
种新的评价指标,引入了风险决策的思想,可用于评 统性能的影响
估ASV系统和CM系统的综合性能。本文将t-DCF 本节探讨 Transformer 编码器注意头数目 M
作为主要评价指标,为了便于计算通常使用其最小 和编码器层数 N 对本文出所提出的合成语声检测
归一化的形式,可表示为 系统的影响。表2中给出了在输入特征为 LFCC时,
不同注意头数目和编码器层数的合成语声检测系
cm
cm
t-DCF min =min {βP miss (τ cm )+P fa (τ cm )} , (5)
norm
τ cm 统在 ASVspoof2019-LA 测试集上的结果及对应的
其中,参数 β 取决于经验参数和 ASV 系统的性 模型参数量。Transformer 编码器模型参数量不受
能,包括输入语声属于自然语声和合成语声的 注意头数目影响,但会受编码器层数影响,编码器层
先验概率、风险决策中损失值的选择,以及 ASV 数增加,模型的参数量和训练成本都会随之增加。
系统的丢失率 (Miss rate) 和误报率 (False alarm 从表 2 中可以看出,在注意头数目 M 相同的条
rate)。文献 [25] 中详细介绍了有 ASVspoof2019 挑 件下,合成语声检测系统均在编码器层数 N = 1 时