Page 199 - 《应用声学)》2023年第5期
P. 199

第 42 卷 第 5 期           朱应俊等: 注意力机制融合前端网络中间层的语声情感识别                                         1091


                                                               殊的扩张 CNN 从输入的过渡语声情感特征中提
             0 引言
                                                               取空间信息并生成空间注意力图以对特征进行
                                                               加权。
                 语声情感识别 (Speech emotion recognition,
             SER) 已在娱乐产品的情感交互、远程教育的情                               在已有对语声特征融合及注意力机制在 SER
             感反馈、智能座舱的情绪监测中得到广泛应用。在                            任务中应用研究的基础上,通过对语声信号进行
             应用中,通过建立语声信号的声学特征与情感的映                            预加重和分帧加窗等处理,得到基于谱特征和时
             射关系,对语声的情感进行分类。基于单一特征的                            序特征的前端网络,利用压缩 -激励 (Squeeze-and-
             SER 模型因受到特征信息量不足的制约而影响识                           excitation, SE) 通道注意力机制对前端网络中间层
             别准确率。随着对语声情感特征研究的逐步深入,                            进行融合,有效利用不同前端网络在SER 任务中的
             通过对多种语声特征进行融合以消除特征中的冗                             优势提高情感识别准确率。通过在汉语情感数据集
             余信息并提升识别准确率的方法受到越来越多的                             中的对比实验,对前端网络选择的合理性和 SE 通
             关注,已形成了特征级、中间层级、决策级等融合                            道注意力机制用于对前端网络中间层进行融合的
             方式。                                               有效性进行验证。
                 对语声情感特征进行特征级的融合可以在增
             加信息量并提高识别准确率的同时有效减小特征                             1 SER模型
             维度。Liu 等   [1]  使用基于相关性分析和 Fisher 准则
             的特征选择方法,去除来自同一声源且具有较高                                 本文判断语声信号情感类别的 SER 模型如
             相关性的冗余特征。Cao 等          [2]  也提出了基于 Spear-        图 1所示,该模型由3个模块组成:前端网络模块、注
             man 相关性分析和随机森林特征选择的方法提取                           意力机制融合模块和后端网络分类模块。前端网络
             相关性最弱的特征以进行融合。基于网络中间层                             模块对输入的语声信号进行预加重和分帧加窗等
             进行的融合则利用神经网络将原始特征转化为高                             处理后,提取梅尔倒谱系数(Mel-frequency cepstral
             维特征表达,以获取不同模态数据在高维空间的                             coefficients, MFCC) 和逆梅尔倒谱系数 (Inverted
             融合表示。Cao等       [3]  在话语级别的情感识别中使用                MFCC, IMFCC)作为谱特征,把谱特征输入到二维
             门控记忆单元 (Gated memory unit, GMU) 来获取               卷积神经网络 (Two dimensional CNN, 2D-CNN)
             语声信号的静态与动态特征融合后的情感中间表                             得到 MFCC 2D-CNN 和 IMFCC 2D-CNN;提取散
             示。Zhang 等   [4]  提出了基于块的时间池化策略用                   射卷积网络系数 (Scattering convolution network
             于融合多个预训练的卷积神经网络 (Convolutional                    coefficients, SCNC) 作为时序特征,把时序特征输
             neural network, CNN) 模型学习到的片段级情感                  入到长短期记忆网络 (Long-short term memory,
             特征,得到固定长度的话语级情感特征。语声特                             LSTM) 中得到 SCNC LSTM。注意力机制融合模
             征的融合还可基于多个模型在其输出阶段进行决                             块引入 SE 通道注意力机制,将 MFCC 2D-CNN、
             策级融合以集成其情感分类结果                 [5] 。Noh 等  [6]  使  IMFCC 2D-CNN 和SCNC LSTM 前端网络中提取
             用基于验证准确度的指数加权平均法则组成了分                             的中间层进行加权融合得到融合深度特征 (Fusion
             级投票决策器对多个 CNN 模型的决策结果进行                           deep feature, FDF)。后端分类模块基于 DNN构建
             融合。Yao 等    [7]  使用基于置信度的决策级融合整                   分类器,依据输入的FDF映射输出情感分类结果。
             合了在多任务学习中获得的循环神经网络 (Recur-
             rent neural network, RNN)、CNN 和深度神经网络             1.1  基 于 MFCC 和 IMFCC 特 征 的 2D-CNN
                                                                    前端网络
             (Deep neural network, DNN)。
                 注意力机制可用于自动计算输入数据对输出                               MFCC 和IMFCC谱特征中不同频谱区间的频
             数据的贡献大小,近年来也在语声识别相关领域                             谱能量分布体现着不同情感状态下的声道形状和
             得到了较多运用。Bahdanau 等            [8]  将注意力机制         发声状态     [11] ,其中计算 MFCC 特征时使用的 Mel
             应用于 RNN 和 n-gram 语言模型,建立了端到端                      三角滤波器模拟了人耳听觉的非线性机制,更加关
             的序列模型。Mirsamadi 等        [9]  将基于局部注意力            注于语声信号的低频部分而对中高频的变化不够
             机制的加权时间池化策略用于 RNN 模型,以学                           敏感   [12] ;IMFCC特征则通过 IMel 滤波器在高频区
             习与情感相关的短时帧级特征。Kwon                  [10]  使用特     域分布更加密集来获取更多高频信息                  [13] 。Hz 频率
   194   195   196   197   198   199   200   201   202   203   204