Page 172 - 《应用声学》2022年第5期
P. 172

848                                                                                  2022 年 9 月


             形成了时空注意力机制,集合了两者的优点,无论是                           被识别成 neutral 情感;在 Emo-DB 库中识别率为
             串行结构还是并行结构均使得模型的性能得到了                             68%,有 20% 的 happy 被识别成愤怒。上述分析结
             显著改善。串行的 STA-CRNN 模型相较于并行的                        果与之前的研究结果一致             [28−29] ,由于训练数据的
             STA-CRNN 模型,在两个数据库上均取得了最好                         有限性以及 happy 类别比其他类别更依赖语境,导
             的结果,在Emo-DB库中WA和UA分别高了0.2%、                       致happy类别很难被识别。
             0.8%,在 IEMOCAP 中分别高了 1.3%、1.1%,并且                 2.4  与现有SER实验结果对比
             其收敛曲线也最为稳定。
                                                                   本文选择以下 8 种网络作为对比实验:基于三
                 图4展示了本文模型在Emo-DB和IEMOCAP
                                                               维注意的卷积递归神经网络 (Convolutional recur-
             库上实验的混淆矩阵,通过分析混淆矩阵可知,本文                                                                      [12]
                                                               rent neural networks with attention, ACRNN)  ,
             所提出的模型对于 angry 的识别率较好,在 Emo-
                                                               并行卷积递归神经网络 (Parallelized convolutional
             DB 和 IEMOCAP 库上分别达到了 95% 和 80% 的
                                                               recurrent neural network, PCRN) [30] ,多重卷积递
             准确率。
                                                               归神经网络 (Multiple convolution recurrent neu-
                                                               ral network, MCRN)  [28] ,1D 和 3D 多特征融合网
                    angry  95.0  0.0  5.0  0.0  0.0  0.0  0.0
                                                               络 [31] ,基于卷积的胶囊神经网络 (Capsule neural
                      sad  0.0  83.0  0.0  0.0  4.0  10.0  3.0                              [32]
                                                               network based CNN, CapCNN)      ,时间注意池网
                    happy  20.0  0.0  68.0  0.0  8.0  4.0  0.0  络 (Attentive temporal pooling, ATP) [33] ,上下文
                  ᄾࠄಖኤ  neutral  0.0  2.0  10.0 88.0  0.0  0.0  0.0  叠加拓展的卷积神经网络      [34] ,以及卷积循环神经网


                     fear  7.0  0.0  0.0  6.0  85.0  5.0  0.0  络(CNN-LSTM)    [11] 。结果如表3所示。
                  boredom  10.0  4.0  0.0  0.0  0.0  86.0  0.0         表 3   与现有 SER 结果准确率比较

                   disgust  0.0  4.0  0.0  3.0  0.0  6.0  87.0    Table 3 Comparison with the accuracy of
                                                                  existing SER results
                         angry  sad  happy  neutral  fear  boredom  disgust                       (单位: %)


                                      ᮕ฾ಖኤ
                                                                     数据集             方法          WA    UA
                                  (a)NjښEmo-DBःʽ
                                                                    Emo-DB        ACRNN [12]      —   82.8
                    angry  80.0    5.0    2.0     13.0              Emo-DB         PCRN [29]     86.4  84.5
                                                                    Emo-DB        CapCNN [32]     —    82.
                                                                    Emo-DB         ATP [33]      85.7  82.9
                                                  14.0
                           0.0
                                   81.0
                                           5.0
                      sad
                  ᄾࠄಖኤ                                              Emo-DB    本文模型 (STA-CRNN)    86.8  84.7
                    happy  7.0     6.0    24.0    63.0             IEMOCAP      CNN-LSTM  [11]   64.7  56.6
                                                                   IEMOCAP        MCRN  [28]     67.3  62.0
                                                                   IEMOCAP        1D+3D [31]      —   61.2
                   neutral  9.0    9.0     5.0    77.0
                                                                   IEMOCAP     DiCCOSER-CS [34]  65.8  56.7
                           angry   sad    happy  neutral           IEMOCAP    本文模型 (STA-CRNN)    69.4  65.5
                                     ᮕ฾ಖኤ
                                 (b)NjښIEMOCAPःʽ
                                                                   通过表 3 可以看出,在 Emo-DB 库中,本模型
                图 4 本文模型在 Emo-DB 和 IEMOCAP 库上实验                比 ACRNN   [12]  的 UA 提高了 1.9%;比 PCRN     [29]  模
                的混淆矩阵
                                                               型的 WA 和 UA 分别高了 0.4%、0.2%;而与最近较
               Fig. 4 The confusion matrix of the model is tested
                                                               为火热的 CapCNN      [32] 、ATP [33]  对比,也体现了一
               on Emo-DB and IEMOCAP
                                                               定的优势,两者 UA 皆是提高了 1.8%。在 IEMO-
                 但是本模型对于 happy 的识别效果较差:在                       CAP 库中,本文模型比传统 CNN-LSTM              [11]  的 WA
             IEMOCAP 库中仅有 24%,因为大部分的 happy                     增长了4.7%,而UA的增幅高达8.9%;和MCRN                 [28]
   167   168   169   170   171   172   173   174   175   176