Page 84 - 《应用声学》2023年第1期
P. 84

80                                                                                   2023 年 1 月


             Convolutional Bank,H 表示 Highway network,G         其中,c t,k 、c ′ t,k  分别是来自原始和合成语声中的第
             表示 Bidirectional GRU),能够通过正向传播和反                  t 帧的第 k 个梅尔倒谱系数 (Mel frequency cepstral
             向传播来修正每一帧的错误,以此来提高声频质                             coefficient, MFCC),其中跳过c t,0 ,因为 0 阶MFCC
             量  [33] 。                                         反映的是频谱能量。本实验对合成的 4 种情感分别

                  ܦᮠၷੇ                                         进行MCD计算,其结果如表1所示。


                                                                        表 1  合成语声不同情感的 MCD
                                              ೏࠷៨ڏ
                                                                  Table 1 MCD of different emotions in syn-
                                                                  thetic speech
                Griffin-Lim   CBHG

                                                                         情感                    MCD
                                                                         愤怒                    4.40
                                              ᝍᆊ٨
                                                                         开心                    4.59
                 ৱਖᎄᆊ٨
                                                                         伤心                    4.36
                 ឭភ̡ᎄᆊ٨                     ܳ݀ฌਓҧ఻҄                      惊讶                    6.29
                                                                         平均                    4.91
                 ஡వᎄᆊ٨
                                                                   MCD 平均值为 4.91,根据文献 [35] 中的研究,
                 ஡వᮕܫေᣥК                                       当MCD值低于8时,合成的语声能被语声识别系统
                                                               所识别,从而应用于语声交互中。因此本实验的语
                    图 5  低资源儿童情感语声合成模型框架
                                                               声合成质量较为优良,然而惊讶情感的合成质量较
               Fig. 5 Children emotional speech synthesis model
                                                               差的结果仍有待进一步探究。
             3 实验结果与分析                                             对于情感语声的客观评价,在保证语声质量的
                                                               条件下本实验对合成语声的情感质量使用语声情
                 本实验将从主观和客观两个维度对合成的语
                                                               感识别的方式进行测评。由于合成的语声数据量在
             声进行评价。其中客观评价采用情感语声识别的不
                                                               100 句左右,实验采用支持向量机 (Support vector
             加权平均召回率 (Unweighted average recall rate,
                                                               machine, SVM) 建立情感识别模型,适用于小样本
             UAR),对成人情感语声合成结果和儿童情感语声
                                                               的分类模型。
             合成结果进行对比。主观听辨实验采用平均意见得
                                                                   在语声情感识别过程中,不同的情感特征对
             分 (Mean opinion score, MOS) 和情感相似度平均
                                                               于最终的识别效果存在重要影响。提取以及选择
             意见得分(Emotional mean opinion score, EMOS),
                                                               能够有效反映情感变化的语声特征是语声情感识
             其目的是对合成语声从自然度和情感度两个维度
                                                               别领域目前最重要的问题之一                 [36] 。本实验采用
             上进行评价。
                                                               eGeMAPS 声学特征集,eGeMAPS 虽仅有 88 维特
             3.1 客观实验结果
                                                               征,但涵盖了多种韵律特征、基于谱的特征以及音
                 本文的客观实验采用检测语声合成质量的梅                           质特征    [1] 。
             尔倒谱失真 (Melcepstral distortion, MCD)     [34]  方       混淆矩阵的结果能详细表现出情感之间的分
             式以及机器学习的语声情感识别方法。
                                                               类情况及误判情况,它的横向表示实际的结果,纵向
                 MCD 是一种用来检测语声质量的客观评价指
                                                               表示预测的结果,从左上到右下的对角线表示的是
             标,衡量两个梅尔倒谱序列之间差异的量度,MCD
                                                               预测正确的值,其余是误分值,合成语声的混淆矩阵
             越小表示其合成的语声与原始语声越为相似,计算
                                                               如图6所示。
             方式如下:
                                                                   通过对比模型合成的成人情感语声和儿童情
                               v
                            T −1  u  K
                          1  ∑ u∑ (               ) 2          感语声的混淆矩阵可以看出,其迁移效果较为
                MCD K =        t      c (t,k) − c ′ (t,k)  ,  (3)
                          T                                    良好。
                            t=0   k=1
   79   80   81   82   83   84   85   86   87   88   89