Page 32 - 《应用声学》2023年第1期
P. 32

28                                                                                   2023 年 1 月


                 现有的合成语声检测系统大多模型结构复杂                           LFCC、CQCC 和修正群延时 (Modified group de-
             且参数量较大。本文提出了一种基于 Transformer                      lay, MGD) 特征,均为经过分帧将语声信号近似为
             编码器模型的合成语声检测方法,利用自注意力                             平稳信号后计算得到的帧级别特征。基于时序的帧
             机制,学习输入信号声学特征内部的相关性和长                             级别特征可以使得 Transformer 编码器更好地学习
             期依赖关系。相比于原始的 Transformer 编码器模                     到特征内部的长期依赖关系。ASVspoof2019-LA数
             型  [18] ,适当地减少了编码器层数与注意力操作次                       据集中语声数据的采样率为f s = 16 kHz。
             数,模型结构简单,参数量较小,实验结果表明本文                               对数功率谱是对输入语声分帧加窗后,进行
             所提出的模型在 ASVspoof2019 数据集上取得了比                     512 点傅里叶变换,并计算功率谱,然后对功率谱
             大部分现有模型更优的性能。                                     进行对数尺度变换得到的              [9] 。所采用的是窗长为
                                                               25 ms,帧移为10 ms的汉宁窗,如式(1)所示:
             1 合成语声检测系统结构                                                               (         )
                                                                        S spec (t, ω) = 20 lg  |X(t, ω)|  ,  (1)
                                                                                          2 × 10 −5
                 基于 Transformer 编码器的合成语声检测系统
                                                               其中,|X(t, ω)| 为输入语声信号的短时傅里叶变换
             框架如图 2 所示,分为声学特征提取和分类器两
             部分,其中分类器采用了 Transformer 编码器结构。                    幅度谱,t为帧标识,ω 为角频率。
             Transformer 编码器   [18]  由 N 个相同的层堆叠而成,                LFCC 是根据 ASVspoof2019 挑战赛所提供的
             每个编码器层包含两个子层,分别是多头自注意力                            基线系统     [8]  计算得到的。使用窗长为 20 ms、帧移
             和前馈神经网络。编码器通过自注意力机制对输入                            为 10 ms 的汉明窗对语声进行分帧加窗,并做 512
             特征进行非线性变换,能够更好地捕捉特征的内部                            点傅里叶变换,计算对数功率谱。然后利用一组线
             相关性,学习长期依赖关系。在每个子层后都添加                            性三角滤波器处理后,再进行对数运算与离散余弦
             了残差连接和层归一化,以保证网络的快速收敛。                            变换 (Discrete Cosine transform, DCT) 后得到倒
                                                               谱系数,其中滤波器数量为20个。对20维的倒谱特
                                                               征逐帧计算一阶与二阶动态系数,最终得到 60维的
                    ឦܦ४Ѭ
                                            ࣱک෉ӑ               特征向量。
                                                                   常数 Q 倒谱系数是基于常数 Q 变换 (Constant
                   Logsoftmax         NT
                                            ࡏॆʷӑ
                   Лᤌଌࡏ(2)                                     Q Transform, CQT) 计算得到的倒谱特征,同样根
                     ReLU                                      据 ASVspoof2019 挑战赛所提供的基线系统              [8]  进行
                   Лᤌଌࡏ(512)               ҒᯠᇸፃᎪፏ              计算。CQT 更符合人类的感知系统,在低频具有更
                                                               高的频率分辨率,而在高频具有更高的时间分辨率,
                 Transformerᎄᆊ٨             ࡏॆʷӑ
                                                               对于高频信息损失更少。选择的分析频段最高频
                                                               率为 ASVspoof2019 数据集中语声数据采样频率的
                    ጳভઆॖ                   ܳ݀ᒭฌਓҧ
                                                               1/2,即f max = 8 kHz,将分析频段分割为 10个八度
                                                               音,每个八度音内再分割为 96 个频带,则最低频率
                   ܦߦྲढ़ଢԩ
                                                   ͯᎶᎄᆊ                            10
                                                               定义为f min = f max /2   ≃ 7 Hz。利用CQT计算得
                    ᣥКηՂ                    ᣥКྲढ़               到频谱,然后计算对数功率谱,再进行重采样后,就
                 Ռੇឦܦೝ฾ጇፒ                 Transformerᎄᆊ٨       可利用 DCT 变换计算得到 CQCC 特征。本文提取
                                                               CQCC及其一阶和二阶动态系数,最终得到90维的
               图 2  基于 Transformer 编码器的合成语声检测系统
                                                               特征向量。
              Fig. 2 Transformer encoder-based spoofing counter-
                                                                    MGD 特征是傅里叶频谱的复数表示,同时包
              measure system for synthetic speech detection
                                                               含了相位和幅度信息。给定输入信号 x(n),经过短
             1.1 声学特征提取                                        时傅里叶变换得到复数谱X(ω),其实部和虚部分别
                 本文选取了在合成语声检测中常用的 4 种声                         为 X R (ω) 和 X I (ω),定义 nx(n) 的复数谱为 Y (ω),
             学特征,分别是对数功率谱 (Spectrogram, Spec)、                 其实部和虚部分别为Y R (ω)和Y I (ω),则MGD 特征
   27   28   29   30   31   32   33   34   35   36   37