Page 203 - 《应用声学)》2023年第5期
P. 203

第 42 卷 第 5 期           朱应俊等: 注意力机制融合前端网络中间层的语声情感识别                                         1095


             实验对基于 SE 通道注意力机制的网络融合方式在                          的2D-CNN前端网络。(4) 基于16维与64维SCNC
             SER任务中的准确率与时间复杂度进行了分析。                            特征的 LSTM 前端网络。(5) 基于32维SCNC特征
                                                               的2D-CNN前端网络。为验证在网络中间层进行融
             2.1 实验平台与数据集
                                                               合相较于特征级融合的优势,实验对比了两类前端
                 实验选用的 CPU 型号为 11th Gen Intel Core
                                                               融合方式:(1) 前端特征级注意力机制融合。(2) 前
             i5-11400,搭配 4666 MHz 频率的双通道 DDR4 内
                                                               端特征级非计权融合。除此之外,还比较了对网络
             存,容量共 32 GB,用于深度学习加速的 GPU 型号
                                                               中间层进行非计权融合后的网络性能。
             为NVIDIA GeForce RTX3060,显存容量为12 GB,
                                                                   为了进一步验证 SE 通道注意力机制用于网络
             开发使用的语言版本为 Python 3.8.3,使用的深度
                                                               中间层融合的适用性,还和文献[2]中基于随机森林
             学习框架为Tensorflow 2.4.0。
                                                               特征选择算法的前端融合、文献 [3] 中基于 GMU 的
                 本文实验基于中国科学院自动化研究所录制
                                                               分层网络中间层融合和文献 [7] 中基于置信度的后
             的汉语情感语料库的部分数据进行,该数据子集
                                                               端融合方式进行了比较分析,并取预测测试集的总
             包含了来自 4 位说话者的 1200 条语声,其情感倾向
                                                               耗时作为时间复杂度指标进行讨论。
             包括生气 (Anger)、悲伤 (Sad)、害怕 (Fear)、开心
             (Happy)、中性(Neutral)、惊讶(Surprise),语声的采             2.3  实验结果与讨论
             样率为 16000 Hz。实验中,将语声片段的时长统一                           不同维度语声特征在对应前端网络中的分类
             为2 s 共32000个采样点,对其进行加窗分帧操作后                       结果如表 3 中所示。由表 3 可知基于二维 MFCC
             可得到 126 个语声帧。求得各语声特征维度如表 2                        特征的 2D-CNN 前端网络相较于基于一维及三维
             所示。                                               MFCC 特征的前端网络取得了更高的平均准确率
                                                               和宏 F1 得分;基于二维 IMFCC 特征的 2D-CNN 前
                          表 2   语声特征及维度
                                                               端网络亦优于基于一维与三维 IMFCC 特征的前端
               Table 2 Speech features and its dimension
                                                               网络;且最大池化在 2D-CNN 前端网络中的效果好
                      语声特征                 特征维度
                                                               于平均池化。对比 16 维与 64 维的 SCNC 特征可知,
                      1D-MFCC              1×1×126
                                                               基于 32 维 SCNC 特征的 LSTM 前端网络性能更好,
                     2D-MFCC              1×39×126
                                                               且优于基于SCNC特征的2D-CNN前端网络。
                      3D-MFCC              3×13×126
                                                                   分析可知,对于二维 MFCC 和 IMFCC 特征,
                     1D-IMFCC              1×1×126
                                                               2D-CNN 前端网络可有效利用特征矩阵中的频谱
                     2D-IMFCC             1×39×126
                                                               能量信息进行分类。而最大池化相较于平均池化,
                     3D-IMFCC              3×13×126
                                                               对特征矩阵中的纹理信息更加敏感,更有利于对
                      16 SCNC              1×16×126
                                                               区分性信息的提取。对于 SCNC 特征,LSTM 前端
                      32 SCNC             1×32×126
                                                               网络能够更好地学习序列中的时间相关性,由 5 层
                      64 SCNC              1×64×126
                                                               ISCN提取的 32维SCNC 特征则可较好地保留用于
             2.2 实验设置                                          分类的高频信息。
                 为消除数据集划分方式对网络性能的影响,将                              将本文所选的 3 类前端网络的分类结果表示
             中国科学院自动化研究所语声情感数据集进行随                             为混淆矩阵,如图 5 所示,其中对角线数据表示网
             机排序,并按照 80%、10%、10% 的比例划分为训                       络对每类情感的识别准确率。观察混淆矩阵可知,
             练集、验证集和测试集。取五折交叉验证后的各                             3 类前端网络对 “中性 (Neutral)”与“愤怒 (Angry)”
             情感平均分类准确率 (Average ACC) 和宏 F1 得分                  两类情感的识别准确率显著高于其余情感类别。
             (Macro-F1 Score)作为网络性能的评价指标。                          基于 SE 通道注意力机制的网络中间层融合方
                 为验证前端网络设置及对应特征维度选择                            式对比前端融合方式与中间层非计权融合方式的
             的合理性,实验分别对比了:(1) 基于一维谱特                           情感分类结果如表 4 所示,观察可知,前端特征级
             征 1D-MFCC 与 1D-IMFCC 的 1D CNN 前端网络。               的拼接融合或注意力机制融合相较于单一特征仅
             (2) 基 于 三 维 谱 特 征 3D-MFCC 与 3D-IMFCC 的            能使情感分类的平均准确率小幅提升,这证明了前
             3D-CNN前端网络。(3) 使用平均池化(Ave-pool)层                  端融合特征泛化能力有限,无法充分利用多种语声
   198   199   200   201   202   203   204   205   206   207   208