Page 171 - 《应用声学》2022年第5期
P. 171

第 41 卷 第 5 期               张志浩等: 基于 STA-CRNN 模型的语声情感识别                                      847

                  90
                                                                            表 2   4 种模型实验结果
                  80
                                                                  Table 2 Experimental results of four types
                  70
                                                                  of models
                  60
                                                                                                   (单位: %)
                 WA/%  50                   CNN(AC1)                                    Emo-DB    IEMOCAP
                                            CNN(AC2)
                  40
                                            CNN(AC4)
                  30                        CNN(AC3)                      方法            (WA/UA)   (WA/UA)
                                            CNN(AC5)
                  20                        CNN(AC6)               (Base1)CNN+BiLSTM    84.4/82.3  65.6/61.3
                                            CNN(AC7)
                  10
                                                                   (Base2)ACNN+BiLSTM   85.1/83.4  67.2/63.5
                   0
                    0`  20` 40` 60` 80` 100` 120` 140` 160        (Base3)CNN+A-BiLSTM   85.4/83.8  67.6/63.9
                                   Epochs                          (Base4) 并行 STA-CRNN  86.4/83.9  68.7/64.6
                               (a) ښEmo-DBः˗
                                                                    本文模型 (STA-CRNN)     86.8/84.7  69.4/65.5
                  70
                                                                   图3为在Emo-DB和IEMOCAP库中4种模型
                  60
                                                               的收敛曲线。
                  50
                                                                     90
                  40
                 WA/%  30                   CNN(AC1)                 80
                                            CNN(AC2)
                                            CNN(AC3)                 70
                  20                        CNN(AC4)                 60
                                            CNN(AC5)
                                            CNN(AC6)                 50
                  10
                                            CNN(AC7)                WA/%                  CNN+BiLSTM
                   0                                                 40                   CNN+A-BiLSTM
                    0`  20` 40` 60` 80` 100` 120` 140` 160           30                   ACNN+BiLSTM
                                   Epochs                                                 ࣳᛡSTA-CRNN
                                                                     20
                              (b) ښIEMOCAPः˗                                              వ஡വی
                                                                     10
                图 2 CNN(AC1-7) 在 Emo-DB 库和 IEMOCAP 库                  0
                                                                       0`  20` 40` 60` 80` 100` 120` 140` 160
                中的收敛曲线                                                               Epochs
               Fig. 2 Convergence curves of CNN (AC1-7) in                        (a)NjښEmo-DBः˗
               Emo-DB and IEMOCAP
                                                                     80
             2.3.2 STA-CRNN实验结果分析                                    70
                                                                     60
                 为了验证本文所提模型的有效性,创建了由
                                                                     50
             CNN+BiLSTM模型以及在此基础上加入两种注意                               40
             力机制所组成的基线模型。设置了具体实验如下:                                 WA/%                   CNN+BiLSTM
                                                                     30                    CNN+A-BiLSTM
                 (1) Base1(CNN+BiLSTM):以CNN+BiLSTM                   20                    ACNN+BiLSTM
                                                                                           ࣳᛡSTA-CRNN
             作为基线模型。                                                 10                    వ஡വی
                 (2) Base2(ACNN+BiLSTM):在Base1 的基础                    0
                                                                       0`  20` 40` 60` 80` 100` 120` 140` 160
             上,在CNN中加入时空注意力层。                                                        Epochs
                 (3) Base3(CNN+A-BiLSTM):在 Base1 的基                              (b)NjښIEMOCAPः˗
             础上,在BiLSTM网络后加入时间注意力层。                               图 3 在 Emo-DB 和 IEMOCAP 库中 4 种模型收敛
                 (4) Base4(并行 STA-CRNN):将带有空间注意                   曲线
             力机制的 CNN 和时间注意力机制的 BiLSTM 采取                         Fig. 3 Convergence curves of four model in Emo-
             并行方式,采用特征融合的方法,和本文串行的                                DB and IEMOCAP
             STA-CRNN模型进行对比。                                       通过表 2 和图 3 可知,在 Base1 的基础上,不论
                 (5) 本文模型 (STA-CRNN):和上述实验进行                   是在 CNN 中 (Base2) 还是在 BiLSTM 中 (Base3) 加
             对比,验证本文所提出网络的有效性。                                 入注意力层,WA 和UA 都有增长,但是都没有达到
                 表2为4种模型的实验结果。                                 预期的效果。而本文的模型把两种注意力机制结合
   166   167   168   169   170   171   172   173   174   175   176