Page 31 - 《应用声学》2023年第1期
P. 31

第 42 卷 第 1 期             万伊等: 基于 Transformer 编码器的合成语声检测系统                                    27


             0 引言                                                                    Ռੇឦܦ       ᒭүឭភ̡
                                                                                     ೝ฾ጇፒ        ᝣ᝽ጇፒ
                 语声是用户与智能设备之间的一种实用的交                             ᄬಖឭភ̡ឦܦ
             互方式。语声信号便于采集,易于获取,并且可以和
                                                                 ᭤ᄬಖឭភ̡ឦܦ           ᒭүឭភ̡        Ռੇឦܦ
             其他生物特征相结合对用户进行个人身份验证。自                                                  ᝣ᝽ጇፒ        ೝ฾ጇፒ
             动说话人认证系统 (Automatic speaker verification                Ռੇឦܦ
             system, ASV) 作为一种高效便捷的身份验证方案,                                            Ռੇឦܦೝ฾ጇፒ        ᚸ
                                                                                                      Ռ
             在电话银行、健康管理、智能家居等电话和网络接                                                  ᒭүឭភ̡ᝣ᝽ጇፒ        Ѽ
                                                                                                      х
             入的控制系统中有着广泛应用。但是与其他生物认
                                                                  图 1  合成语声检测系统与自动说话人认证系统的
             证技术类似,ASV系统容易受到欺骗攻击。
                                                                  3 种融合方式
                 近年来,深度学习技术的快速发展促进了语声
                                                                  Fig. 1  Three combination methods of spoof-
             合成(Text-to-speech, TTS)与语声转换(Voice con-
                                                                  ing countermeasure system and automatic speaker
             version, VC) 技术的飞速发展。谷歌、百度等公司                        verification system
             提出了WaveNet、Tacotron 和Deep Voice等高效的
             语声合成技术       [1−3] ,可以根据输入的任意文字来                      Zhang 等  [9]  探究了功率谱特征在卷积神经网
                                                               络 (Convolutional neural networks, CNN) 和循环
             生成接近真人发声的高质量语声,而语声转换技
             术可以将输入的真实语声转换成目标说话人的                              神经网络 (Recurrent neural networks, RNN) 上的
             语声。语声合成与转换技术的发展给人们的生活                             表现,并提出了 CNN 与 RNN 两种网络相结合的方
             带来便利。但随着网络与社交媒体的发展,犯罪                             法,用于合成语声检测任务。Todisco 等               [10]  提出了

             分子可以很容易取得用户发布在网络平台上的声                             常数 Q 倒谱系数 (Constant-Q cepstral coefficients,
             频、视频数据并借助先进的语声合成与转换算法                             CQCC),作为合成语声检测的有效特征。CQCC 在
             来生成合成语声,对用户的个人账户和设备进行                             深度神经网络 (Deep neural networks, DNN) 和残
             攻击。                                               差神经网络 (Deep residual network, ResNet) 上都
                 已有的研究表明,ASV 系统本身在合成语声攻                        得到了较好的检测效果            [11−13] 。Lavrentyeva 等  [14]
             击的场景下表现出脆弱性             [4−6] 。为提高 ASV 系统         提出了基于线性频率倒谱系数 (Linear frequency
             的安全性,可以设计一个独立的合成语声检测系统                            cepstral coefficients, LFCC) 和轻量级卷积神经网
             (Spoofing countermeasure system, CM),专门用于          络(Light convolutional neural networks, LCNN)的
             检测欺骗攻击。独立系统的优势是不需要对原有的                            方法,并引入了基于角度的损失函数用于网络训练。
             ASV 系统进行大幅度改动,只需通过和 ASV 系统                        Luo 等  [15]  提出了基于 LFCC 和胶囊网络 (Capsule
             融合,就能得到对于输入语声的准确判断。如图1所                           network) 的合成语声检测方法。Zhang 等             [16]  提出
             示,合成语声检测系统与ASV系统可以通过串联和                           了单分类的损失函数以提高检测算法的泛化能力。
             并联的方式进行融合          [7] 。                          Sahidullah 等  [17]  针对合成语声检测中的常用特征
                 ASVspoof2019 挑战赛的任务中包括了逻辑攻                    进行了探究,认为声学特征中的高频特征、动态特
             击 (Logical access, LA) 和物理攻击 (Physical ac-        征、相位特征以及特征间的长期依赖关系对于合成
             cess, PA) 两种场景,其中 LA 场景包括了语声合成                    语声检测更为有效。
             和语声转换两种针对 ASV 系统的攻击方式,PA 场                            Transformer 模型   [18]  是一种基于自注意力机
             景则特指录声重放的攻击方式。本文的研究主要基                            制的自然语言处理模型,最初由谷歌提出并用于机
             于LA场景。ASVspoof2019-LA任务         [8]  为合成语声        器翻译任务中,其中的 Transformer 编码器模型近
             检测任务提供了统一的数据库与评价标准,推动了                            年来在图像和语声的分类任务中也取得了较好的
             合成语声检测技术的研究与发展。目前许多有效的                            结果   [19−21] 。Zhang 等 [22]  将 Transformer 编码器用
             合成语声检测系统都是基于声学特征与机器学习                             于特征的进一步提取,并用 ResNet 模型作为分类
             模型。                                               器,用于合成语声检测任务中。
   26   27   28   29   30   31   32   33   34   35   36