Page 136 - 《应用声学》2024年第1期
P. 136

132                                                                                  2024 年 1 月


                                                               (Linear prediction residual Hilbert envelope cep-
             0 引言
                                                               stral coefficients, LPRHEC) 以及线性预测残余相
                 随着人工智能技术的发展,合成语声的能力日                          位层系数(Linear prediction residual phase cepstral
             益提高。通过技术手段合成得到的语声开始变得越                            coefficients, LPRPC) 特征,用于合成语声识别,在
             来越逼真,甚至可以达到通过模仿目标说话人,生成                           ASVspoof2015 数据集上取得了较好性能。Sanchez
             即使是人类也很难区分的语声。基于深度学习的最                            等 [6]  提出利用相位信息开展对合成语声的检测工
             新语声合成研究成果包括Tacotron和Tacotron2框                    作,使用相对相位偏移 (Relative phase shift, RPS)
             架、百度 AI 研发的 Deep Voice、谷歌 Deepmind 提              特征实现了合成语声的检测。除此之外,相位特
             出的 Wavenet 技术、科大讯飞语声合成系统等。嫌                       征还包括群延迟特征 (Group delay, GD)、修正群
             疑人利用这些技术合成语声开展电信诈骗等违法                             延迟倒谱系数 (Modified group delay cepstral co-
             犯罪活动的比例逐年上升,对人民财产安全、社会                            efficients, MGDCC)、基带相位差 (Baseband phase
             稳定构成了严重威胁。现有的传统司法语声鉴定技                            difference, BPD) 等。Tian 等   [7]  综合比对了这些相
             术在开展合成语声检验时难度较大,难以出具鉴定                            位特征在合成语声识别任务中的性能,证实了相
             意见。但由于人对语声的感知是非常多样化的,考                            位特征的有效性。Todisco 等          [8]  提出利用基于长时
             虑到计算机受限于目前人工智能技术和硬件运算                             常数 Q 变换的倒谱系数 (Constant-Q cepstral coef-
             能力,只能通过部分参数在一定程度上对人类真实                            ficients, CQCC) 特征,该特征是研究者针对伪造语
             语声的声学特性进行感知,使得通过语声合成技术                            声识别领域所专门设计的特征,其能更密切地反
             生成的语声在声学特性上仍与真实语声存在着一                             映出人对声音感知程度,提取过程是通过对语声信
             定距离。因此,研究合成语声识别的技术存在可行                            号采样恒Q变换(Constant-Q transform, CQT)后,
             性。目前的主流研究趋势           [1]  是通过设计和改进语声             再求对数得到倒谱系数所得到的。在 CQCC 特征
             特征,以找到能够较好表征出合成语声和真实语声                            的基础上,Yang 等       [9]  研究提出倒倍频常数 Q 系数
             间差异性的参数,实现有效识别合成语声的目的。                            和倒倍频常数 Q 倒倍频系数来进一步优化 CQCC
                 现有的语声特征研究成果丰富               [2] ,主要可分为        特征。Das 等     [10]  验证了基于 CQT 的扩展恒 Q 倒
             倒谱系数特征、相位特征、幅度值特征、长时特征、                           谱系数 (extended constant-Q cepstral coefficients,
             子带特征,分别是根据在语声合成的过程中短时内                            eCQCC)、常数 Q 统计量加主信息系数 (Constant-
             频率变化、相位、幅度特性差异,长时内语声信息差                           Q statistics-plus-principal information coefficients,
             异和频带中的部分特性差异所提出的一系列特征,                            CQSPIC)特征的性能优于 CQCC 特征。子带特征
             主要如下。                                             指的是通过对频带中的一部分展开变换所得到的
                 Davis 等  [3]  提出,在以人对频率的听觉感知                  特征。主要包括子带频谱质心幅度系数 (Spectral
             曲线梅尔刻度的基础上,设计得到梅尔频率倒谱                             centroid magnitude coefficients, SCMC)、子带质心
             系数 (Mel-frequency cepstral coefficients, MFCC)。     频率系数(Subband centroid frequency coefficients,
             在此基础上,不同的研究人员设计了不同的 MFCC                          SCFC) 等。2020 年,Yang 等     [11]  提出的恒 Q 等子带
             改进特征,如 Chettri 等      [4]  提出的逆梅尔频率倒谱             变换 (Constant-Q equal subband transform, CQ-

             系数 (Inverted Mel-frequency cepstral coefficients,   EST)、恒 Q 倍频程子带变换 (CQ-OST) 和离散傅
             IMFCC) 等。类似于 MFCC,还有利用线性的三                        里叶梅尔子带变换 (Discrete Fourier Mel subband
             角滤波器组对语声做出处理后,再求取对数的倒                             transform, DF-MST),并在ASVspoof2019 LA数据
             谱系数,得到线性频率倒谱系数特征 (Linear fre-                     集上取得了较好的效果,这证明了子带特征也适
             quency cepstral coefficients, LFCC),由于LFCC在         用于合成语声识别领域。Laskowski 等              [12]  提出基
             语声高频区域可能具有更好的分辨率,其已被证                             频变化率(Fundamental frequency variation, FFV)
             实拥有较好性能。Hanilci       [5]  提出从线性预测残差分             特征用于说话人识别领域。Monisankha等                [13]  将其
             析信号中提取出幅值和相位,得到线性预测残差                             应用于合成语声识别上,取得了较好的效果。
             相位函数(Linear prediction residual phase, LPRe-          上述为目前研究领域主流特征,大部分是针对
             sPhase)、线性预测残余希尔伯特包络倒谱系数                          合成语声短时内频率、幅度、相位和长时内语声信
   131   132   133   134   135   136   137   138   139   140   141