Page 31 - 《应用声学》2023年第1期
P. 31
第 42 卷 第 1 期 万伊等: 基于 Transformer 编码器的合成语声检测系统 27
0 引言 Ռੇឦܦ ᒭүឭភ̡
ೝጇፒ ᝣጇፒ
语声是用户与智能设备之间的一种实用的交 ᄬಖឭភ̡ឦܦ
互方式。语声信号便于采集,易于获取,并且可以和
᭤ᄬಖឭភ̡ឦܦ ᒭүឭភ̡ Ռੇឦܦ
其他生物特征相结合对用户进行个人身份验证。自 ᝣጇፒ ೝጇፒ
动说话人认证系统 (Automatic speaker verification Ռੇឦܦ
system, ASV) 作为一种高效便捷的身份验证方案, Ռੇឦܦೝጇፒ ᚸ
Ռ
在电话银行、健康管理、智能家居等电话和网络接 ᒭүឭភ̡ᝣጇፒ Ѽ
х
入的控制系统中有着广泛应用。但是与其他生物认
图 1 合成语声检测系统与自动说话人认证系统的
证技术类似,ASV系统容易受到欺骗攻击。
3 种融合方式
近年来,深度学习技术的快速发展促进了语声
Fig. 1 Three combination methods of spoof-
合成(Text-to-speech, TTS)与语声转换(Voice con-
ing countermeasure system and automatic speaker
version, VC) 技术的飞速发展。谷歌、百度等公司 verification system
提出了WaveNet、Tacotron 和Deep Voice等高效的
语声合成技术 [1−3] ,可以根据输入的任意文字来 Zhang 等 [9] 探究了功率谱特征在卷积神经网
络 (Convolutional neural networks, CNN) 和循环
生成接近真人发声的高质量语声,而语声转换技
术可以将输入的真实语声转换成目标说话人的 神经网络 (Recurrent neural networks, RNN) 上的
语声。语声合成与转换技术的发展给人们的生活 表现,并提出了 CNN 与 RNN 两种网络相结合的方
带来便利。但随着网络与社交媒体的发展,犯罪 法,用于合成语声检测任务。Todisco 等 [10] 提出了
分子可以很容易取得用户发布在网络平台上的声 常数 Q 倒谱系数 (Constant-Q cepstral coefficients,
频、视频数据并借助先进的语声合成与转换算法 CQCC),作为合成语声检测的有效特征。CQCC 在
来生成合成语声,对用户的个人账户和设备进行 深度神经网络 (Deep neural networks, DNN) 和残
攻击。 差神经网络 (Deep residual network, ResNet) 上都
已有的研究表明,ASV 系统本身在合成语声攻 得到了较好的检测效果 [11−13] 。Lavrentyeva 等 [14]
击的场景下表现出脆弱性 [4−6] 。为提高 ASV 系统 提出了基于线性频率倒谱系数 (Linear frequency
的安全性,可以设计一个独立的合成语声检测系统 cepstral coefficients, LFCC) 和轻量级卷积神经网
(Spoofing countermeasure system, CM),专门用于 络(Light convolutional neural networks, LCNN)的
检测欺骗攻击。独立系统的优势是不需要对原有的 方法,并引入了基于角度的损失函数用于网络训练。
ASV 系统进行大幅度改动,只需通过和 ASV 系统 Luo 等 [15] 提出了基于 LFCC 和胶囊网络 (Capsule
融合,就能得到对于输入语声的准确判断。如图1所 network) 的合成语声检测方法。Zhang 等 [16] 提出
示,合成语声检测系统与ASV系统可以通过串联和 了单分类的损失函数以提高检测算法的泛化能力。
并联的方式进行融合 [7] 。 Sahidullah 等 [17] 针对合成语声检测中的常用特征
ASVspoof2019 挑战赛的任务中包括了逻辑攻 进行了探究,认为声学特征中的高频特征、动态特
击 (Logical access, LA) 和物理攻击 (Physical ac- 征、相位特征以及特征间的长期依赖关系对于合成
cess, PA) 两种场景,其中 LA 场景包括了语声合成 语声检测更为有效。
和语声转换两种针对 ASV 系统的攻击方式,PA 场 Transformer 模型 [18] 是一种基于自注意力机
景则特指录声重放的攻击方式。本文的研究主要基 制的自然语言处理模型,最初由谷歌提出并用于机
于LA场景。ASVspoof2019-LA任务 [8] 为合成语声 器翻译任务中,其中的 Transformer 编码器模型近
检测任务提供了统一的数据库与评价标准,推动了 年来在图像和语声的分类任务中也取得了较好的
合成语声检测技术的研究与发展。目前许多有效的 结果 [19−21] 。Zhang 等 [22] 将 Transformer 编码器用
合成语声检测系统都是基于声学特征与机器学习 于特征的进一步提取,并用 ResNet 模型作为分类
模型。 器,用于合成语声检测任务中。