Page 204 - 《应用声学)》2023年第5期
P. 204

1096                                                                                 2023 年 9 月


             特征的优势。而基于网络中间层进行非计权拼接融                            制进行融合的有效性。不同融合方式取得的分类混
             合后的准确率相较于特征级融合有了显著提高,但                            淆矩阵分别如图 6 所示,观察可知后端分类网络均
             其表现依旧差于采用 SE 通道注意力机制的融合方                          在“中性” 情感上取得了最高的识别准确率,这也证
             式。这证明了基于网络中间层进行的融合优于特征                            明了前端网络在某一类情感识别中的优势在融合
             级的融合,也进一步验证了基于 SE 通道注意力机                          后可以得到保留。

                                        表 3   三类语声特征在不同前端网络中的分类结果
                     Table 3 Classification results of three SER features in different front-end networks

                                                                    准确率/%
                           前端网络                                                                    宏 F1/%
                                               Angry  Fear   Happy  Neutral  Sad   Surprise  Average
                       1D-MFCC 1D-CNN          72.09  45.45  51.61   62.16  58.00   40.00   54.89   54.40
                 2D-MFCC 2D-CNN(Max-pool)      71.10  66.47  64.83  87.90   67.86  67.53    70.95   70.84
                   2D-MFCC 2D-CNN(Avg-pool)    83.33  67.65  56.41   81.82  65.52   60.46   69.20   69.04
                       3D-MFCC 3D- CNN         72.97  48.84  58.97   71.05  60.00   68.42   63.38   62.92
                       1D-IMFCC 1D-CNN         50.00  61.36  44.00   64.71  67.57   51.35   56.50   56.34
                 2D-IMFCC 2D-CNN(Max-pool)     74.11  72.87  68.97  88.16   67.44  71.78    73.89   73.88
                   2D-IMFCC 2D-CNN(Avg-pool)   72.74  69.05  64.71   90.75  70.23   66.96   72.41   72.36
                       3D-IMFCC 2D-CNN         71.79  60.00  52.17   77.78  50.00   76.19   64.67   63.95
                        32-SCNC 2D-CNN         64.09  47.73  34.94   42.59  56.36   37.99   47.28   47.25
                        16-SCNC LSTM           58.97  44.44  50.00   45.45  48.94   40.54   48.06   48.51
                       32-SCNC LSTM            57.12  45.52  46.12  56.88   47.52  52.33    50.91   50.97
                        64-SCNC LSTM           61.29  39.02  39.53   40.54  60.98   55.32   49.45   49.32


                  Angry                        0.8                         0.8
                                                                                                        0.5
                   Fear
                                               0.6                         0.6                          0.4
                ᄾࠄಖኤ  Neutral                  0.4                         0.4                          0.3
                  Happy

                                                                                                        0.2
                    Sad                        0.2                         0.2
                                                                                                        0.1
                 Surprise
                                               0
                      Angry   Fear  Happy Neutral  Sad Surprise  Angry   Fear  Happy Neutral  Sad Surprise  Angry   Fear  Happy Neutral  Sad Surprise

                               ᮕ฾ಖኤ                        ᮕ฾ಖኤ                          ᮕ฾ಖኤ
                           (a) MFCC 2D-CNN              (b) IMFCC 2D-CNN              (c) SCNC LSTM
                                               图 5  三类前端网络的分类混淆矩阵
                                       Fig. 5 Confusion matrix for three front-end networks

                                            表 4  不同网络融合方式的对比实验结果
                           Table 4 Comparative test results of different network fusion methods

                                                          准确率/%
                          方法                                                                 宏 F1/%
                                   Angry   Fear   Happy   Neutral   Sad   Surprise  Average
                        前端拼接       66.14   60.33  65.17    87.69   79.04   68.29     71.11    70.94
                        前端融合       75.61   74.11  70.62    86.50   74.14   76.53     76.25    76.21
                       中间层拼接       92.74   81.85  83.84    96.88   89.21   80.75     87.55    87.55
                       中间层融合       90.97  93.42   91.50    96.08   84.59   92.59    91.52    91.50
   199   200   201   202   203   204   205   206   207   208   209