Page 204 - 《应用声学）》2023年第5期

P. 204

1096 2023 年 9 月

特征的优势。而基于网络中间层进行非计权拼接融制进行融合的有效性。不同融合方式取得的分类混
合后的准确率相较于特征级融合有了显著提高，但淆矩阵分别如图 6 所示，观察可知后端分类网络均
其表现依旧差于采用 SE 通道注意力机制的融合方在“中性” 情感上取得了最高的识别准确率，这也证
式。这证明了基于网络中间层进行的融合优于特征明了前端网络在某一类情感识别中的优势在融合
级的融合，也进一步验证了基于 SE 通道注意力机后可以得到保留。

表 3 三类语声特征在不同前端网络中的分类结果
Table 3 Classiﬁcation results of three SER features in diﬀerent front-end networks

准确率/%
前端网络宏 F1/%
Angry Fear Happy Neutral Sad Surprise Average
1D-MFCC 1D-CNN 72.09 45.45 51.61 62.16 58.00 40.00 54.89 54.40
2D-MFCC 2D-CNN(Max-pool) 71.10 66.47 64.83 87.90 67.86 67.53 70.95 70.84
2D-MFCC 2D-CNN(Avg-pool) 83.33 67.65 56.41 81.82 65.52 60.46 69.20 69.04
3D-MFCC 3D- CNN 72.97 48.84 58.97 71.05 60.00 68.42 63.38 62.92
1D-IMFCC 1D-CNN 50.00 61.36 44.00 64.71 67.57 51.35 56.50 56.34
2D-IMFCC 2D-CNN(Max-pool) 74.11 72.87 68.97 88.16 67.44 71.78 73.89 73.88
2D-IMFCC 2D-CNN(Avg-pool) 72.74 69.05 64.71 90.75 70.23 66.96 72.41 72.36
3D-IMFCC 2D-CNN 71.79 60.00 52.17 77.78 50.00 76.19 64.67 63.95
32-SCNC 2D-CNN 64.09 47.73 34.94 42.59 56.36 37.99 47.28 47.25
16-SCNC LSTM 58.97 44.44 50.00 45.45 48.94 40.54 48.06 48.51
32-SCNC LSTM 57.12 45.52 46.12 56.88 47.52 52.33 50.91 50.97
64-SCNC LSTM 61.29 39.02 39.53 40.54 60.98 55.32 49.45 49.32

Angry 0.8 0.8
0.5
Fear
0.6 0.6 0.4
ᄾࠄಖኤ Neutral 0.4 0.4 0.3
Happy

0.2
Sad 0.2 0.2
0.1
Surprise
0
Angry Fear Happy Neutral Sad Surprise Angry Fear Happy Neutral Sad Surprise Angry Fear Happy Neutral Sad Surprise

ᮕ฾ಖኤ ᮕ฾ಖኤ ᮕ฾ಖኤ
(a) MFCC 2D-CNN (b) IMFCC 2D-CNN (c) SCNC LSTM
图 5 三类前端网络的分类混淆矩阵
Fig. 5 Confusion matrix for three front-end networks

表 4 不同网络融合方式的对比实验结果
Table 4 Comparative test results of diﬀerent network fusion methods

准确率/%
方法宏 F1/%
Angry Fear Happy Neutral Sad Surprise Average
前端拼接 66.14 60.33 65.17 87.69 79.04 68.29 71.11 70.94
前端融合 75.61 74.11 70.62 86.50 74.14 76.53 76.25 76.21
中间层拼接 92.74 81.85 83.84 96.88 89.21 80.75 87.55 87.55
中间层融合 90.97 93.42 91.50 96.08 84.59 92.59 91.52 91.50

199 200 201 202 203 204 205 206 207 208 209