Page 203 - 《应用声学)》2023年第5期
P. 203
第 42 卷 第 5 期 朱应俊等: 注意力机制融合前端网络中间层的语声情感识别 1095
实验对基于 SE 通道注意力机制的网络融合方式在 的2D-CNN前端网络。(4) 基于16维与64维SCNC
SER任务中的准确率与时间复杂度进行了分析。 特征的 LSTM 前端网络。(5) 基于32维SCNC特征
的2D-CNN前端网络。为验证在网络中间层进行融
2.1 实验平台与数据集
合相较于特征级融合的优势,实验对比了两类前端
实验选用的 CPU 型号为 11th Gen Intel Core
融合方式:(1) 前端特征级注意力机制融合。(2) 前
i5-11400,搭配 4666 MHz 频率的双通道 DDR4 内
端特征级非计权融合。除此之外,还比较了对网络
存,容量共 32 GB,用于深度学习加速的 GPU 型号
中间层进行非计权融合后的网络性能。
为NVIDIA GeForce RTX3060,显存容量为12 GB,
为了进一步验证 SE 通道注意力机制用于网络
开发使用的语言版本为 Python 3.8.3,使用的深度
中间层融合的适用性,还和文献[2]中基于随机森林
学习框架为Tensorflow 2.4.0。
特征选择算法的前端融合、文献 [3] 中基于 GMU 的
本文实验基于中国科学院自动化研究所录制
分层网络中间层融合和文献 [7] 中基于置信度的后
的汉语情感语料库的部分数据进行,该数据子集
端融合方式进行了比较分析,并取预测测试集的总
包含了来自 4 位说话者的 1200 条语声,其情感倾向
耗时作为时间复杂度指标进行讨论。
包括生气 (Anger)、悲伤 (Sad)、害怕 (Fear)、开心
(Happy)、中性(Neutral)、惊讶(Surprise),语声的采 2.3 实验结果与讨论
样率为 16000 Hz。实验中,将语声片段的时长统一 不同维度语声特征在对应前端网络中的分类
为2 s 共32000个采样点,对其进行加窗分帧操作后 结果如表 3 中所示。由表 3 可知基于二维 MFCC
可得到 126 个语声帧。求得各语声特征维度如表 2 特征的 2D-CNN 前端网络相较于基于一维及三维
所示。 MFCC 特征的前端网络取得了更高的平均准确率
和宏 F1 得分;基于二维 IMFCC 特征的 2D-CNN 前
表 2 语声特征及维度
端网络亦优于基于一维与三维 IMFCC 特征的前端
Table 2 Speech features and its dimension
网络;且最大池化在 2D-CNN 前端网络中的效果好
语声特征 特征维度
于平均池化。对比 16 维与 64 维的 SCNC 特征可知,
1D-MFCC 1×1×126
基于 32 维 SCNC 特征的 LSTM 前端网络性能更好,
2D-MFCC 1×39×126
且优于基于SCNC特征的2D-CNN前端网络。
3D-MFCC 3×13×126
分析可知,对于二维 MFCC 和 IMFCC 特征,
1D-IMFCC 1×1×126
2D-CNN 前端网络可有效利用特征矩阵中的频谱
2D-IMFCC 1×39×126
能量信息进行分类。而最大池化相较于平均池化,
3D-IMFCC 3×13×126
对特征矩阵中的纹理信息更加敏感,更有利于对
16 SCNC 1×16×126
区分性信息的提取。对于 SCNC 特征,LSTM 前端
32 SCNC 1×32×126
网络能够更好地学习序列中的时间相关性,由 5 层
64 SCNC 1×64×126
ISCN提取的 32维SCNC 特征则可较好地保留用于
2.2 实验设置 分类的高频信息。
为消除数据集划分方式对网络性能的影响,将 将本文所选的 3 类前端网络的分类结果表示
中国科学院自动化研究所语声情感数据集进行随 为混淆矩阵,如图 5 所示,其中对角线数据表示网
机排序,并按照 80%、10%、10% 的比例划分为训 络对每类情感的识别准确率。观察混淆矩阵可知,
练集、验证集和测试集。取五折交叉验证后的各 3 类前端网络对 “中性 (Neutral)”与“愤怒 (Angry)”
情感平均分类准确率 (Average ACC) 和宏 F1 得分 两类情感的识别准确率显著高于其余情感类别。
(Macro-F1 Score)作为网络性能的评价指标。 基于 SE 通道注意力机制的网络中间层融合方
为验证前端网络设置及对应特征维度选择 式对比前端融合方式与中间层非计权融合方式的
的合理性,实验分别对比了:(1) 基于一维谱特 情感分类结果如表 4 所示,观察可知,前端特征级
征 1D-MFCC 与 1D-IMFCC 的 1D CNN 前端网络。 的拼接融合或注意力机制融合相较于单一特征仅
(2) 基 于 三 维 谱 特 征 3D-MFCC 与 3D-IMFCC 的 能使情感分类的平均准确率小幅提升,这证明了前
3D-CNN前端网络。(3) 使用平均池化(Ave-pool)层 端融合特征泛化能力有限,无法充分利用多种语声