Page 205 - 《应用声学)》2023年第5期
P. 205

第 42 卷 第 5 期           朱应俊等: 注意力机制融合前端网络中间层的语声情感识别                                         1097


                        Angry                            0.8      Angry                            0.8
                         Fear                                      Fear
                                                         0.6                                       0.6
                     ᄾࠄಖኤ  Neutral                       0.4   ᄾࠄಖኤ  Neutral                       0.4
                       Happy
                                                                  Happy

                         Sad                                        Sad                            0.2
                                                         0.2
                      Surprise                                  Surprise
                                                         0                                         0
                             Angry   Fear  Happy  Neutral  Sad  Surprise  Angry   Fear  Happy Neutral  Sad Surprise

                                      ᮕ฾ಖኤ                                        ᮕ฾ಖኤ
                                    (a) Ғቫૃଌ                                    (b) ҒቫᚸՌ

                        Angry                                     Angry
                                                         0.8                                       0.8
                         Fear                                      Fear
                     ᄾࠄಖኤ  Neutral                       0.6   ᄾࠄಖኤ  Neutral                       0.6
                       Happy
                                                                  Happy
                                                         0.4
                                                                                                   0.4
                         Sad                                        Sad
                                                         0.2                                       0.2
                      Surprise                                  Surprise
                                                         0                                         0
                             Angry   Fear  Happy  Neutral  Sad  Surprise  Angry   Fear  Happy Neutral  Sad Surprise


                                      ᮕ฾ಖኤ                                        ᮕ฾ಖኤ
                                   (c) ˗ᫎࡏૃଌ                                    (d) ˗ᫎࡏᚸՌ
                                             图 6  不同网络融合方式的分类混淆矩阵
                                   Fig. 6 Confusion matrix for different network fusion methods
                 文献 [2–3,7] 中不同阶段的融合方式在测试集                     实验证明了本文基于通道注意力机制的融合网络
             上的平均准确率和预测耗时如表 5 所示。观察数据                          用于 SER 任务时,通过对多种语声特征和分类网络
             可知,基于随机森林特征选择算法的特征融合方                             的有效利用,可以实现更高的平均识别准确率。
             式  [2]  所用预测时间最短,这也体现了传统机器学习
             方法在预测效率上的优势。基于置信度的后端决策                            3 结论
             级融合方式      [7]  在使用多类语声特征获得较高的准
                                                                   本文把 SE 通道注意力机制用于对基于谱特征
             确率的同时耗费了最长的预测时间。而基于 GMU
                                                               的和时序特征的前端网络的中间层融合,并进行了
             的网络中间层融合方式           [3]  对动静态谱特征进行融
                                                               实验验证。实验结果表明,多特征分类相较于单一
             合则可兼顾识别效率与准确率。本文相较于融合                             特征分类在情感识别准确率上具有明显的优势;中
             方式  [3]  在谱特征的基础上增加了时序特征,使用
                                                               间层融合的多特征融合方式优于前端特征级的融
             SE通道注意力机制用于网络中间层融合,平均准确                           合方式;利用 SE 通道注意力机制对前端网络中间
             率提高了 5.39%,预测耗时则仅增加 0.015 s。对比                    层进行融合,能有效利用不同前端网络在SER 任务
                                                               中的优势提高情感识别准确率。
                    表 5  融合方式的准确率与复杂度对比
             Table 5 Accuracy and complexity comparison
                                                                              参 考 文        献
                   方法       文献 [2]  文献 [3]  文献 [7]  本文
                                                                 [1] Liu Z T, Wu M, Cao W H, et al.  Speech emotion
                平均准确率/%      78.61   86.13  87.05  91.52           recognition based on feature selection and extreme learn-
                时间复杂度/s      0.035   0.064  0.102  0.079           ing machine decision tree[J]. Neurocomputing, 2018, 273:
                                                                   271–280.
   200   201   202   203   204   205   206   207   208   209   210