Page 34 - 《应用声学》2023年第1期
P. 34

30                                                                                   2023 年 1 月

                                                                                                  cm
             需要注意的是,作为合成语声训练数据的自然语声                            战赛中 t-DCF 参数设置的详细信息。P              miss  (τ cm ) 和
                                                                 cm
             与 ASVspoof2019-LA 数据集中的自然语声数据不                    P fa  (τ cm ) 分别代表阈值 s = τ cm 时,CM 系统的丢
             重叠。                                               失率和误报率,如式(6)和式(7)所示:
                                                                   P  cm  (τ cm )
                   表 1   ASVspoof2019-LA 数据集组成                      miss
                                                                   # {bona fide trials with CM score6τ cm }
                Table 1 Partitions of the ASVspoof2019-         =                                       , (6)
                                                                          # {Total bona fide trials}
                LA dataset
                                                                    cm
                                                                   P fa  (τ cm )
                        自然语声              合成语声                     # {spoof trials with CM score > τ cm }
                                                                =                                    ,    (7)
                      语声数据数目       语声数据数目 攻击算法编号                          # {Total spoof trials}
                训练集      2580         22800     A01–A06        其中,# 代表符合括号中所描述条件的语声数目。
                                                                       cm
                验证集      2548         22296     A01–A06        丢失率P    miss (s)随着阈值s的增大而单调递增,误报
                                                                   cm
                测试集      7355         63882     A07–A19        率P  fa  (s)随着阈值增大而单调递减。
                                                                                        cm
                                                                              cm
                                                                   EER 是使 P   miss (s) 和 P fa  (s) 同时最小的错误
                                                               率,用于衡量单一 CM系统的性能,本文中作为辅助
                 ASVspoof2019-LA 数据集划分为 3 个子集:训
                                                               评价指标。
             练集、验证集和测试集。训练集和验证集中的合成
             语声是由编号 A01-A06 的算法处理得到,其中包括                       2.3  训练策略及参数设置
             4 种语声合成算法和 2 种语声转换算法。测试集中                             本文设定线性投影后得到的嵌入特征维度为
             的合成语声是由编号 A07-A19 的算法处理得到,其                       D model = 60,根据经验值设定前馈神经网络隐藏层
             中包括 7 种语声合成算法和 6 种语声转换算法,且                        单元数 D ff = 256,约为嵌入特征维度的 4 倍。分
             包含了两种在训练集中出现过的已知算法,其余均                            别在编码器的多头自注意力层和全连接层后加入
             为未知算法。每个子集中自然语声与合成语声的比                            Dropout层以防止模型过拟合。
             例约为 1 : 9。本文中训练集用于网络模型的训练,                            网络训练使用带权重的交叉熵作为损失函数,
             验证集用于模型选择,在验证集上性能最优的模型                            来消除训练集中自然语声与合成语声之间数据量
             用于测试最终结果。                                         不平衡带来的影响,权值设为9 : 1。共训练500个周
                                                               期,批处理大小为32。使用AdamW              [26]  优化器对模
             2.2 评价指标
                                                               型进行优化,其中优化器参数 β 1 = 0.9,β 2 = 0.999,
                 合成语声检测系统的评价指标有两种,分
                                                               权重衰减值设为 0.01,每个训练周期学习率初始值
             别是串联检测代价函数 (tandem detection cost
                                                               设置为5 × 10   −5 。
             function, t-DCF) 和 等 错 误 率 (Equal error rate,
             EER)  [24] ,根据分类器输出的语声得分情况来计                      3 实验结果
             算这两类评价指标。
                 t-DCF 是基于 ASVspoof2019 挑战赛提出的一                3.1  Transformer编码器结构对合成语声检测系
             种新的评价指标,引入了风险决策的思想,可用于评                                统性能的影响
             估ASV系统和CM系统的综合性能。本文将t-DCF                             本节探讨 Transformer 编码器注意头数目 M
             作为主要评价指标,为了便于计算通常使用其最小                            和编码器层数 N 对本文出所提出的合成语声检测
             归一化的形式,可表示为                                       系统的影响。表2中给出了在输入特征为 LFCC时,
                                                               不同注意头数目和编码器层数的合成语声检测系
                                             cm
                                  cm
              t-DCF min  =min {βP miss  (τ cm )+P fa  (τ cm )} , (5)
                    norm
                          τ cm                                 统在 ASVspoof2019-LA 测试集上的结果及对应的
             其中,参数 β 取决于经验参数和 ASV 系统的性                         模型参数量。Transformer 编码器模型参数量不受
             能,包括输入语声属于自然语声和合成语声的                              注意头数目影响,但会受编码器层数影响,编码器层
             先验概率、风险决策中损失值的选择,以及 ASV                           数增加,模型的参数量和训练成本都会随之增加。
             系统的丢失率 (Miss rate) 和误报率 (False alarm                  从表 2 中可以看出,在注意头数目 M 相同的条
             rate)。文献 [25] 中详细介绍了有 ASVspoof2019 挑              件下,合成语声检测系统均在编码器层数 N = 1 时
   29   30   31   32   33   34   35   36   37   38   39