Page 140 - 《应用声学》2024年第1期
P. 140

136                                                                                  2024 年 1 月


                                                               了最新的开源语声合成 (Text-to-speech, TTS) 系
                    RMS                                        统包括百度的 Deep voice3、谷歌云 Wavenet、亚马

                                                               逊 AWS Polly、微软 Azure TTS 系统等,对选取的
                                                               特殊短语文本生成声频文件;收集了来自 Arctic、
                                                               LJSpeech、VoxForge三个开源数据集和Youtube 视
                          α 
                                                               频播放平台上的语声作为数据集中真实语声的来
                            α 
                    0
                              T x     T x⇁      ௑ᫎ            源。训练集包含的合成语声、真实语声均为 8391 条
                      图 5  RMSA 特征余弦夹角示意图                      语句,总共 16782 条语句,验证集包含 2826 条语句,
                 Fig. 5 Diagram of RMSA feature cosine angle   测试集中包含 1088 条语句并且增加了一种训练和
                                                               验证集中没有的语声合成方法,用以测试实验模型
                 通过提取语声信号能量有效值,并量化相邻两
                                                               和特征的泛化性能。
             帧的差异,在一定程度上可以反映出语声的声学特
                                                                   本实验使用的评价指标为等错误率 (Equal er-
             性情况和说话人发音时的状态。因此提取语声的
                                                               ror rate, EER) [18] ,即错误接受率(False accept rate,
             RMSA 特征表征声强变化程度可以从语声声学特
                                                               FAR) 和错误拒绝率 (False rejection rate, FRR) 相
             性的角度,提取出声强的即时变化情况,进而有利于
                                                               等时的数值。其数值越小,代表性能越好,分类错误
             区分合成语声和真实语声,有助于提高合成语声自
                                                               出现得更少。
             动化识别的准确率。
                                                                   实验工具包括 Keras、tensorflow 深度学习框
             2.1.2 FFV和SNS特征
                                                               架、sklearn 机器学习工具库、librosa 声频数据处理
                 (1) FFV特征。使用韵律学特征中的FFV特征                      库、spafe 语声特征提取库、numba 开源编译器工具
             表示了逐帧间的基音频率瞬时变化的情况,能够较                            库。实验运行环境:操作系统为windows 10专业版,
             好体现声学上的声调起伏程度,又能较好地适用于                            图形运算显卡为Nvidia Tesla V100-SXM2 32 GB。
             合成语声识别任务,将有助于区分合成语声和真实
                                                               3.2  实验模型及参数设置
             语声。
                 (2) SNS特征。SNS在频率上的分辨能力高,相                         为保证能够在相同的变量条件下开展对照实
             比宽带频谱图,其包含的谐波结构及形态走向更加                            验,在实验模型上根据特征的类型选择不同的深度
             清晰明了。两者本质上是同种变换不同参数下的结                            神经网络模型,以保证声学特征和对比特征在同一
             果。因此,本文直接提取SNS特征,利用机器直接学                          模型中开展的同时,保证识别模型的性能。
             习和识别输入的窄带频谱图像,将能比较直观地学                                (1) 时序型特征识别模型。针对以时间序列
             习到合成语声与真实语声的频谱特性差异情况,相                            上排序为重要特性的 RMSA 特征、FFV 特征,将
             较于宽带频谱有着更为高效、直观的优点。                               使用适用于合成语声识别任务的包含 5 层隐藏层、
                                                               每层 2048 个神经元的深度神经网络 (Deep neural
             3 合成语声识别特征验证实验                                    network, DNN)模型。
                                                                   (2) 谱图型特征识别模型。针对主要以频谱图
                 通过比对目前合成语声识别领域前沿特征,开
                                                               像为形式的 SNS 特征,将使用包含两层 64 个 3 × 3
             展合成语声识别实验和消融实验,通过设置对照实
                                                               的卷积核、两层汇聚层的卷积神经网络 (Convolu-
             验特征及模型,与本文所提和使用的特征在同一模
                                                               tional neural network, CNN) 模型,对特征分类学
             型下的表现性能进行比对,从而得出特征化声学特
                                                               习。使用该模型连接全连接层,实现二分类输出为
             性得到的声学特征在区分合成语声任务中的表现
                                                               合成或者真实标签。
             情况,用以证明声学特征的有效性,进一步验证特征
                                                                   (3) 融合特征识别模型。特征融合的方法是通
             的针对合成语声识别任务的性能。
                                                               过使用 DNN、CNN 模型对声学特征数据进行深度
             3.1 数据集及实验环境                                      向量表示后,利用 Concat 层融合,一同输入至全连
                 本实验使用的数据集为 FoR            [17] :Fake or Real  接层进行二分类输出。融合特征识别模型结构如
             合成语声数据集的 2 s 语声标准版。该数据集使用                         图 6所示。
   135   136   137   138   139   140   141   142   143   144   145