Page 140 - 《应用声学》2024年第1期
P. 140
136 2024 年 1 月
了最新的开源语声合成 (Text-to-speech, TTS) 系
RMS 统包括百度的 Deep voice3、谷歌云 Wavenet、亚马
逊 AWS Polly、微软 Azure TTS 系统等,对选取的
特殊短语文本生成声频文件;收集了来自 Arctic、
LJSpeech、VoxForge三个开源数据集和Youtube 视
α
频播放平台上的语声作为数据集中真实语声的来
α
0
T x T x⇁ ᫎ 源。训练集包含的合成语声、真实语声均为 8391 条
图 5 RMSA 特征余弦夹角示意图 语句,总共 16782 条语句,验证集包含 2826 条语句,
Fig. 5 Diagram of RMSA feature cosine angle 测试集中包含 1088 条语句并且增加了一种训练和
验证集中没有的语声合成方法,用以测试实验模型
通过提取语声信号能量有效值,并量化相邻两
和特征的泛化性能。
帧的差异,在一定程度上可以反映出语声的声学特
本实验使用的评价指标为等错误率 (Equal er-
性情况和说话人发音时的状态。因此提取语声的
ror rate, EER) [18] ,即错误接受率(False accept rate,
RMSA 特征表征声强变化程度可以从语声声学特
FAR) 和错误拒绝率 (False rejection rate, FRR) 相
性的角度,提取出声强的即时变化情况,进而有利于
等时的数值。其数值越小,代表性能越好,分类错误
区分合成语声和真实语声,有助于提高合成语声自
出现得更少。
动化识别的准确率。
实验工具包括 Keras、tensorflow 深度学习框
2.1.2 FFV和SNS特征
架、sklearn 机器学习工具库、librosa 声频数据处理
(1) FFV特征。使用韵律学特征中的FFV特征 库、spafe 语声特征提取库、numba 开源编译器工具
表示了逐帧间的基音频率瞬时变化的情况,能够较 库。实验运行环境:操作系统为windows 10专业版,
好体现声学上的声调起伏程度,又能较好地适用于 图形运算显卡为Nvidia Tesla V100-SXM2 32 GB。
合成语声识别任务,将有助于区分合成语声和真实
3.2 实验模型及参数设置
语声。
(2) SNS特征。SNS在频率上的分辨能力高,相 为保证能够在相同的变量条件下开展对照实
比宽带频谱图,其包含的谐波结构及形态走向更加 验,在实验模型上根据特征的类型选择不同的深度
清晰明了。两者本质上是同种变换不同参数下的结 神经网络模型,以保证声学特征和对比特征在同一
果。因此,本文直接提取SNS特征,利用机器直接学 模型中开展的同时,保证识别模型的性能。
习和识别输入的窄带频谱图像,将能比较直观地学 (1) 时序型特征识别模型。针对以时间序列
习到合成语声与真实语声的频谱特性差异情况,相 上排序为重要特性的 RMSA 特征、FFV 特征,将
较于宽带频谱有着更为高效、直观的优点。 使用适用于合成语声识别任务的包含 5 层隐藏层、
每层 2048 个神经元的深度神经网络 (Deep neural
3 合成语声识别特征验证实验 network, DNN)模型。
(2) 谱图型特征识别模型。针对主要以频谱图
通过比对目前合成语声识别领域前沿特征,开
像为形式的 SNS 特征,将使用包含两层 64 个 3 × 3
展合成语声识别实验和消融实验,通过设置对照实
的卷积核、两层汇聚层的卷积神经网络 (Convolu-
验特征及模型,与本文所提和使用的特征在同一模
tional neural network, CNN) 模型,对特征分类学
型下的表现性能进行比对,从而得出特征化声学特
习。使用该模型连接全连接层,实现二分类输出为
性得到的声学特征在区分合成语声任务中的表现
合成或者真实标签。
情况,用以证明声学特征的有效性,进一步验证特征
(3) 融合特征识别模型。特征融合的方法是通
的针对合成语声识别任务的性能。
过使用 DNN、CNN 模型对声学特征数据进行深度
3.1 数据集及实验环境 向量表示后,利用 Concat 层融合,一同输入至全连
本实验使用的数据集为 FoR [17] :Fake or Real 接层进行二分类输出。融合特征识别模型结构如
合成语声数据集的 2 s 语声标准版。该数据集使用 图 6所示。