Page 136 - 《应用声学》2024年第1期
P. 136
132 2024 年 1 月
(Linear prediction residual Hilbert envelope cep-
0 引言
stral coefficients, LPRHEC) 以及线性预测残余相
随着人工智能技术的发展,合成语声的能力日 位层系数(Linear prediction residual phase cepstral
益提高。通过技术手段合成得到的语声开始变得越 coefficients, LPRPC) 特征,用于合成语声识别,在
来越逼真,甚至可以达到通过模仿目标说话人,生成 ASVspoof2015 数据集上取得了较好性能。Sanchez
即使是人类也很难区分的语声。基于深度学习的最 等 [6] 提出利用相位信息开展对合成语声的检测工
新语声合成研究成果包括Tacotron和Tacotron2框 作,使用相对相位偏移 (Relative phase shift, RPS)
架、百度 AI 研发的 Deep Voice、谷歌 Deepmind 提 特征实现了合成语声的检测。除此之外,相位特
出的 Wavenet 技术、科大讯飞语声合成系统等。嫌 征还包括群延迟特征 (Group delay, GD)、修正群
疑人利用这些技术合成语声开展电信诈骗等违法 延迟倒谱系数 (Modified group delay cepstral co-
犯罪活动的比例逐年上升,对人民财产安全、社会 efficients, MGDCC)、基带相位差 (Baseband phase
稳定构成了严重威胁。现有的传统司法语声鉴定技 difference, BPD) 等。Tian 等 [7] 综合比对了这些相
术在开展合成语声检验时难度较大,难以出具鉴定 位特征在合成语声识别任务中的性能,证实了相
意见。但由于人对语声的感知是非常多样化的,考 位特征的有效性。Todisco 等 [8] 提出利用基于长时
虑到计算机受限于目前人工智能技术和硬件运算 常数 Q 变换的倒谱系数 (Constant-Q cepstral coef-
能力,只能通过部分参数在一定程度上对人类真实 ficients, CQCC) 特征,该特征是研究者针对伪造语
语声的声学特性进行感知,使得通过语声合成技术 声识别领域所专门设计的特征,其能更密切地反
生成的语声在声学特性上仍与真实语声存在着一 映出人对声音感知程度,提取过程是通过对语声信
定距离。因此,研究合成语声识别的技术存在可行 号采样恒Q变换(Constant-Q transform, CQT)后,
性。目前的主流研究趋势 [1] 是通过设计和改进语声 再求对数得到倒谱系数所得到的。在 CQCC 特征
特征,以找到能够较好表征出合成语声和真实语声 的基础上,Yang 等 [9] 研究提出倒倍频常数 Q 系数
间差异性的参数,实现有效识别合成语声的目的。 和倒倍频常数 Q 倒倍频系数来进一步优化 CQCC
现有的语声特征研究成果丰富 [2] ,主要可分为 特征。Das 等 [10] 验证了基于 CQT 的扩展恒 Q 倒
倒谱系数特征、相位特征、幅度值特征、长时特征、 谱系数 (extended constant-Q cepstral coefficients,
子带特征,分别是根据在语声合成的过程中短时内 eCQCC)、常数 Q 统计量加主信息系数 (Constant-
频率变化、相位、幅度特性差异,长时内语声信息差 Q statistics-plus-principal information coefficients,
异和频带中的部分特性差异所提出的一系列特征, CQSPIC)特征的性能优于 CQCC 特征。子带特征
主要如下。 指的是通过对频带中的一部分展开变换所得到的
Davis 等 [3] 提出,在以人对频率的听觉感知 特征。主要包括子带频谱质心幅度系数 (Spectral
曲线梅尔刻度的基础上,设计得到梅尔频率倒谱 centroid magnitude coefficients, SCMC)、子带质心
系数 (Mel-frequency cepstral coefficients, MFCC)。 频率系数(Subband centroid frequency coefficients,
在此基础上,不同的研究人员设计了不同的 MFCC SCFC) 等。2020 年,Yang 等 [11] 提出的恒 Q 等子带
改进特征,如 Chettri 等 [4] 提出的逆梅尔频率倒谱 变换 (Constant-Q equal subband transform, CQ-
系数 (Inverted Mel-frequency cepstral coefficients, EST)、恒 Q 倍频程子带变换 (CQ-OST) 和离散傅
IMFCC) 等。类似于 MFCC,还有利用线性的三 里叶梅尔子带变换 (Discrete Fourier Mel subband
角滤波器组对语声做出处理后,再求取对数的倒 transform, DF-MST),并在ASVspoof2019 LA数据
谱系数,得到线性频率倒谱系数特征 (Linear fre- 集上取得了较好的效果,这证明了子带特征也适
quency cepstral coefficients, LFCC),由于LFCC在 用于合成语声识别领域。Laskowski 等 [12] 提出基
语声高频区域可能具有更好的分辨率,其已被证 频变化率(Fundamental frequency variation, FFV)
实拥有较好性能。Hanilci [5] 提出从线性预测残差分 特征用于说话人识别领域。Monisankha等 [13] 将其
析信号中提取出幅值和相位,得到线性预测残差 应用于合成语声识别上,取得了较好的效果。
相位函数(Linear prediction residual phase, LPRe- 上述为目前研究领域主流特征,大部分是针对
sPhase)、线性预测残余希尔伯特包络倒谱系数 合成语声短时内频率、幅度、相位和长时内语声信