Page 200 - 《应用声学》2023年第4期
P. 200

862                                                                                  2023 年 7 月


                                                               公开数据集。在Interspeech2020上,为了促进PN在
             0 引言
                                                               重放语声检测中的应用和研究,Akimoto等                 [15]  提出
                 近年来,随着语声技术的发展,越来越多的用                          了公开数据集 POCO。在POCO 数据集上,研究人
             户选择使用语声交互的手段进行人机交互。作为                             员做了一些工作。Gupta 等           [16]  提出基于低频短时
             一种确认身份的语声交互方法,自动说话人确认                             傅里叶变换 (Short time Fourier transform, STFT)
             (Automatic speaker verification, ASV)在现实生活         和卷积神经网络 (Convolutional neural networks,
             中有着越来越广泛的应用            [1] 。ASV系统通过提取语            CNN) 的重放语声检测模型。Khoria 等             [17]  研究了
             声特征后计算相似度来确认说话人身份。针对ASV                           常数 Q 倒谱系数 (Constant Q cepstral coefficients,
             系统的特点,存在一些欺骗方法,例如人为模仿语                            CQCC) 在不同的分类器下的检测效果。虽然上述
             声、重放语声、语声合成和语声转化                [2] 。其中,重放        研究取得了一些成果,但检测性能仍不理想,值得进
             语声攻击易于实现,已被证明对ASV系统具有较大                           一步探索。
             的危害性    [3] 。                                         近年来,深度学习已成为主流技术,在重放语
                 重放语声检测的研究吸引了很多研究人员。Ji                         声检测方面取得了一些成果。残差网络 (Residual
             等  [4]  提出了一个使用多种声学特征和分类器的集                       network,ResNet) 由于能够解决神经网络的梯度消
             成学习模型用以检测重放语声。Ahmed 等                  [5]  提出    失问题得到广泛的使用。Chen等              [18]  研究了ResNet
             了一种根据真实语声和重放语声之间的频谱功率                             在高斯混合模型和深度神经网络上进行重放语声
             差异来检测重放语声的方法。Wang 等                  [6]  提出一     检测的有效性。Alzantot 等         [19]  提出了 3 种 ResNet
             种基于双对抗域适应框架重放语声检测方法。上                             变体,利用 3 种声学特征来检测重放语声。Parasu
             述方法适应于检测句子级的语声,不适应于对声                             等 [20]  提出了一种语谱图(Spectrogram, Spec) 作为

             频时长短、内容信息少的词级语声检测。Zhang                           输入的轻型 ResNet 架构,用于重放语声检测。然
             等  [7]  使用智能手机的传声器来监控用户声音的反                       而,这些网络中的全连接层包含大量参数,因此在

             射从而检测重放语声。Sahidullah 等            [8]  还提出了       训练过程中容易出现过拟合。分类梯度提升算法
             一种使用喉部传声器的重放语声检测方法。Chen                           (Categorical boosting, CatBoost) 是一种基于集成
             等  [9]  提出了一种根据扬声器发出的磁场来进行重                       学习的方法,通过在树的新拆分处使用贪心方法来
             放语声的检测方法。上述方法需要额外的特定设                             解决特征组合的指数增长            [21−22] 。基于CatBoost的
             备或者要求用户在使用时进行额外的动作,实用性                            分类器可以有效降低全连接层造成的过拟合风险。
             较差。                                               受此启发,本文探索了 ResNet-CatBoost 模型在重
                 气爆杂声 (Pop noise, PN) 是一种由于各种呼                 放语声检测中的可行性。
             吸噪声被传声器捕捉,导致扬声器播放不必要的噪                                本文提出了一种基于ResNet和CatBoost的重
             声的现象。包含PN的语声在低频具有较高的能量。                           放语声检测框架。该框架由特征提取、重放语
             通过窃听录制语声时,攻击者会将录声设备放置                             声检测模型两个模块构成。本文主要贡献如下:
             在距离用户较远的位置,这将导致重放语声中没有                            (1) 受到 PN 的启发,提出了一种新的语声帧选
             PN。因此,PN能区分真实语声和重放语声。此外,检                         择方法。(2) 将 ResNet 进行改进,激活函数改为
             测 PN 要求的设备简单,利用智能设备内置传声器                          LeakyReLU,减少残差块的数量,并加入了自我注
             就足够。Sayaka 等     [10]  提出利用 PN 进行重放语声             意机制(Self-attention mechanism, SAM)。(3) 提出
             检测。随后他们提出了多通道 PN 检测方法和基于                          了一个基于ResNet和CatBoost 的混合检测模型来
             音素的 PN 检测方法       [11−12] 。Wang 等 [13]  进一步应      进行重放语声检测。(4) 研究了不同的声学特征、
             用包含 PN 的语声帧的伽马通频率倒谱系数 (Gam-                       词汇和性别、语声帧选择方式以及频率范围对重
             matone frequency cepstral coefficient, GFCC)进行      放语声检测效果的影响。(5) 研究了录制设备与
             重放语声检测。Jiang 等        [14]  提出了一种基于 PN 的          说话人距离、重放设备质量对重放语声检测效果
             反欺诈ASV系统。上述研究都是使用各自构建的非                           的影响。
   195   196   197   198   199   200   201   202   203   204   205