Page 205 - 《应用声学)》2023年第5期
P. 205
第 42 卷 第 5 期 朱应俊等: 注意力机制融合前端网络中间层的语声情感识别 1097
Angry 0.8 Angry 0.8
Fear Fear
0.6 0.6
ᄾࠄಖኤ Neutral 0.4 ᄾࠄಖኤ Neutral 0.4
Happy
Happy
Sad Sad 0.2
0.2
Surprise Surprise
0 0
Angry Fear Happy Neutral Sad Surprise Angry Fear Happy Neutral Sad Surprise
ᮕಖኤ ᮕಖኤ
(a) Ғቫૃଌ (b) ҒቫᚸՌ
Angry Angry
0.8 0.8
Fear Fear
ᄾࠄಖኤ Neutral 0.6 ᄾࠄಖኤ Neutral 0.6
Happy
Happy
0.4
0.4
Sad Sad
0.2 0.2
Surprise Surprise
0 0
Angry Fear Happy Neutral Sad Surprise Angry Fear Happy Neutral Sad Surprise
ᮕಖኤ ᮕಖኤ
(c) ˗ᫎࡏૃଌ (d) ˗ᫎࡏᚸՌ
图 6 不同网络融合方式的分类混淆矩阵
Fig. 6 Confusion matrix for different network fusion methods
文献 [2–3,7] 中不同阶段的融合方式在测试集 实验证明了本文基于通道注意力机制的融合网络
上的平均准确率和预测耗时如表 5 所示。观察数据 用于 SER 任务时,通过对多种语声特征和分类网络
可知,基于随机森林特征选择算法的特征融合方 的有效利用,可以实现更高的平均识别准确率。
式 [2] 所用预测时间最短,这也体现了传统机器学习
方法在预测效率上的优势。基于置信度的后端决策 3 结论
级融合方式 [7] 在使用多类语声特征获得较高的准
本文把 SE 通道注意力机制用于对基于谱特征
确率的同时耗费了最长的预测时间。而基于 GMU
的和时序特征的前端网络的中间层融合,并进行了
的网络中间层融合方式 [3] 对动静态谱特征进行融
实验验证。实验结果表明,多特征分类相较于单一
合则可兼顾识别效率与准确率。本文相较于融合 特征分类在情感识别准确率上具有明显的优势;中
方式 [3] 在谱特征的基础上增加了时序特征,使用
间层融合的多特征融合方式优于前端特征级的融
SE通道注意力机制用于网络中间层融合,平均准确 合方式;利用 SE 通道注意力机制对前端网络中间
率提高了 5.39%,预测耗时则仅增加 0.015 s。对比 层进行融合,能有效利用不同前端网络在SER 任务
中的优势提高情感识别准确率。
表 5 融合方式的准确率与复杂度对比
Table 5 Accuracy and complexity comparison
参 考 文 献
方法 文献 [2] 文献 [3] 文献 [7] 本文
[1] Liu Z T, Wu M, Cao W H, et al. Speech emotion
平均准确率/% 78.61 86.13 87.05 91.52 recognition based on feature selection and extreme learn-
时间复杂度/s 0.035 0.064 0.102 0.079 ing machine decision tree[J]. Neurocomputing, 2018, 273:
271–280.