Page 200 - 《应用声学》2023年第4期
P. 200
862 2023 年 7 月
公开数据集。在Interspeech2020上,为了促进PN在
0 引言
重放语声检测中的应用和研究,Akimoto等 [15] 提出
近年来,随着语声技术的发展,越来越多的用 了公开数据集 POCO。在POCO 数据集上,研究人
户选择使用语声交互的手段进行人机交互。作为 员做了一些工作。Gupta 等 [16] 提出基于低频短时
一种确认身份的语声交互方法,自动说话人确认 傅里叶变换 (Short time Fourier transform, STFT)
(Automatic speaker verification, ASV)在现实生活 和卷积神经网络 (Convolutional neural networks,
中有着越来越广泛的应用 [1] 。ASV系统通过提取语 CNN) 的重放语声检测模型。Khoria 等 [17] 研究了
声特征后计算相似度来确认说话人身份。针对ASV 常数 Q 倒谱系数 (Constant Q cepstral coefficients,
系统的特点,存在一些欺骗方法,例如人为模仿语 CQCC) 在不同的分类器下的检测效果。虽然上述
声、重放语声、语声合成和语声转化 [2] 。其中,重放 研究取得了一些成果,但检测性能仍不理想,值得进
语声攻击易于实现,已被证明对ASV系统具有较大 一步探索。
的危害性 [3] 。 近年来,深度学习已成为主流技术,在重放语
重放语声检测的研究吸引了很多研究人员。Ji 声检测方面取得了一些成果。残差网络 (Residual
等 [4] 提出了一个使用多种声学特征和分类器的集 network,ResNet) 由于能够解决神经网络的梯度消
成学习模型用以检测重放语声。Ahmed 等 [5] 提出 失问题得到广泛的使用。Chen等 [18] 研究了ResNet
了一种根据真实语声和重放语声之间的频谱功率 在高斯混合模型和深度神经网络上进行重放语声
差异来检测重放语声的方法。Wang 等 [6] 提出一 检测的有效性。Alzantot 等 [19] 提出了 3 种 ResNet
种基于双对抗域适应框架重放语声检测方法。上 变体,利用 3 种声学特征来检测重放语声。Parasu
述方法适应于检测句子级的语声,不适应于对声 等 [20] 提出了一种语谱图(Spectrogram, Spec) 作为
频时长短、内容信息少的词级语声检测。Zhang 输入的轻型 ResNet 架构,用于重放语声检测。然
等 [7] 使用智能手机的传声器来监控用户声音的反 而,这些网络中的全连接层包含大量参数,因此在
射从而检测重放语声。Sahidullah 等 [8] 还提出了 训练过程中容易出现过拟合。分类梯度提升算法
一种使用喉部传声器的重放语声检测方法。Chen (Categorical boosting, CatBoost) 是一种基于集成
等 [9] 提出了一种根据扬声器发出的磁场来进行重 学习的方法,通过在树的新拆分处使用贪心方法来
放语声的检测方法。上述方法需要额外的特定设 解决特征组合的指数增长 [21−22] 。基于CatBoost的
备或者要求用户在使用时进行额外的动作,实用性 分类器可以有效降低全连接层造成的过拟合风险。
较差。 受此启发,本文探索了 ResNet-CatBoost 模型在重
气爆杂声 (Pop noise, PN) 是一种由于各种呼 放语声检测中的可行性。
吸噪声被传声器捕捉,导致扬声器播放不必要的噪 本文提出了一种基于ResNet和CatBoost的重
声的现象。包含PN的语声在低频具有较高的能量。 放语声检测框架。该框架由特征提取、重放语
通过窃听录制语声时,攻击者会将录声设备放置 声检测模型两个模块构成。本文主要贡献如下:
在距离用户较远的位置,这将导致重放语声中没有 (1) 受到 PN 的启发,提出了一种新的语声帧选
PN。因此,PN能区分真实语声和重放语声。此外,检 择方法。(2) 将 ResNet 进行改进,激活函数改为
测 PN 要求的设备简单,利用智能设备内置传声器 LeakyReLU,减少残差块的数量,并加入了自我注
就足够。Sayaka 等 [10] 提出利用 PN 进行重放语声 意机制(Self-attention mechanism, SAM)。(3) 提出
检测。随后他们提出了多通道 PN 检测方法和基于 了一个基于ResNet和CatBoost 的混合检测模型来
音素的 PN 检测方法 [11−12] 。Wang 等 [13] 进一步应 进行重放语声检测。(4) 研究了不同的声学特征、
用包含 PN 的语声帧的伽马通频率倒谱系数 (Gam- 词汇和性别、语声帧选择方式以及频率范围对重
matone frequency cepstral coefficient, GFCC)进行 放语声检测效果的影响。(5) 研究了录制设备与
重放语声检测。Jiang 等 [14] 提出了一种基于 PN 的 说话人距离、重放设备质量对重放语声检测效果
反欺诈ASV系统。上述研究都是使用各自构建的非 的影响。