Page 141 - 《应用声学》2024年第1期
P. 141

第 43 卷 第 1 期               周峻林等: 合成语声的声学分析及识别特征算法                                           137

                               ៨
                               ڏ
                               ی                                  CNNՔ᧚᛫ᇨ
                               ྲ           ᣥК
                               ढ़   SNSྲढ़          CNNᎪፏവی
                                                               ԍ᎖
                                                                                   Л    Ռੇ
                                                                                   ᤌ
                                                                                   ଌ
                                                                      concatᚸՌ     ࡏ    ᄾࠄ
                               ௑
                               ऀ   FFVྲढ़                     ᣥѣ
                               ی           ᣥК     DNNᎪፏവی
                               ྲ  RMSAྲढ़                        DNNՔ᧚᛫ᇨ
                               ढ़
                                                图 6  融合特征识别模型结构图
                                    Fig. 6 Structure diagram of fusion feature recognition model

                 模型的训练具体参数设置为:使用 Adam 优化                       Pitch 特征在模型中的识别效果则分别为 25.2%、
             器,学习率初始化为 3×10         −4 ,损失函数使用二值交              27.8%。这表明提取出语声的声强、基频声学特性,
             叉熵函数。为避免过拟合,当训练过程中损失不再                            并且利用其开展区分合成语声与真实语声是可行
             下降超过 5 轮时,学习率缩小 10 倍。训练批次大小                       的。差分特征能够实现一定程度的识别效果,改进
             为128,训练周期为60轮。                                    的RMSA和FFV特征优于差分特征。

                                                                   由测试集实验结果可见,RMSA 特征、FFV 特
             3.3 实验结果与分析
                                                               征的 EER 为 28.6%、43.8%,识别效果最佳。这表明
             3.3.1 RMSA、FFV特征有效性验证实验
                                                               本文使用的RMSA特征、FFV特征分别能在一定程
                 为验证本文设计的特征在合成语声识别任务
                                                               度上对合成语声进行识别的基础上,对于训练集中
             上的有效性以及优化性能,开展消融实验,进一步对
                                                               没有学习过的语声合成算法的泛化识别性能更好。
             比本文所选用和设计的声学特征在合成语声识别
                                                                   通过对比上述实验结果可以发现:RMSA 特征
             领域的适用性,将提取 RMS特征、RMS 差分特征比
                                                               在验证集中的性能略差于 RMS 特征,优于 RMS 差
             对本文设计的 RMSA 特征识别性能;提取 Pitch(基
                                                               分特征,在测试集中的性能却同时好于RMS特征和
             频) 特征、Pitch 差分特征比对 FFV 特征识别性能,
                                                               RMS差分特征。这是因为模型通过学习RMS特征,
             在相同的 DNN 模型下进行测试,EER 指标如表 1
                                                               学习到了声强的数值大小,利用声强数值上的差异
             所示。
                                                               也能够区分部分合成语声与真实语声,但是表征声
                 表 1   RMSA、FFV 和对比特征的实验结果                     强变化程度的 RMSA 特征更为根本性地反映了合
                                                               成语声在声学特性上与真实语声的差异,并进一步
                Table 1 Experimental results of RMSA,
                FFV and comparison features                    增强了差异性表现程度,因此模型通过学习 RMSA
                                                               特征将能拥有更好的鲁棒性和泛化性能。
                声学特征 (Features) 验证集 EER/% 测试集 EER/%
                                                                   FFV 特征则在验证集、测试集上均优于 Pitch
                    RMS 特征          25.2        33.5
                                                               特征及差分特征,但可以发现在测试集中 Pitch 特
                  RMS 差分特征          34.6        36.8
                                                               征识别合成语声失败,且 Pitch 差分特征和 FFV 特
                  RMSA 特征 *         27.4        28.6
                                                               征的 EER 也明显提高,证明在面对新算法的干扰
                    Pitch 特征        27.8         50
                                                               时,利用基频特性开展合成语声识别的鲁棒性要差
                  Pitch 差分特征        43.8        44.7
                                                               于声强特性。因此,可见通过提取RMSA特征、FFV
                    FFV 特征           26         43.8
                                                               特征实现合成语声的识别,反映出本文所设计的算
                 * 为本文所提特征。
                                                               法能较好地表征出语声声学特性的特点的同时,也
                 由验证集实验结果可见,6 种特征都能实现在                         证明利用声强、基频的变化程度差异,区分合成语
             一定程度上识别合成语声,其中对照设置的 RMS、                          声与真实语声是可行的且性能较好。
   136   137   138   139   140   141   142   143   144   145   146