Page 199 - 《应用声学)》2023年第5期
P. 199
第 42 卷 第 5 期 朱应俊等: 注意力机制融合前端网络中间层的语声情感识别 1091
殊的扩张 CNN 从输入的过渡语声情感特征中提
0 引言
取空间信息并生成空间注意力图以对特征进行
加权。
语声情感识别 (Speech emotion recognition,
SER) 已在娱乐产品的情感交互、远程教育的情 在已有对语声特征融合及注意力机制在 SER
感反馈、智能座舱的情绪监测中得到广泛应用。在 任务中应用研究的基础上,通过对语声信号进行
应用中,通过建立语声信号的声学特征与情感的映 预加重和分帧加窗等处理,得到基于谱特征和时
射关系,对语声的情感进行分类。基于单一特征的 序特征的前端网络,利用压缩 -激励 (Squeeze-and-
SER 模型因受到特征信息量不足的制约而影响识 excitation, SE) 通道注意力机制对前端网络中间层
别准确率。随着对语声情感特征研究的逐步深入, 进行融合,有效利用不同前端网络在SER 任务中的
通过对多种语声特征进行融合以消除特征中的冗 优势提高情感识别准确率。通过在汉语情感数据集
余信息并提升识别准确率的方法受到越来越多的 中的对比实验,对前端网络选择的合理性和 SE 通
关注,已形成了特征级、中间层级、决策级等融合 道注意力机制用于对前端网络中间层进行融合的
方式。 有效性进行验证。
对语声情感特征进行特征级的融合可以在增
加信息量并提高识别准确率的同时有效减小特征 1 SER模型
维度。Liu 等 [1] 使用基于相关性分析和 Fisher 准则
的特征选择方法,去除来自同一声源且具有较高 本文判断语声信号情感类别的 SER 模型如
相关性的冗余特征。Cao 等 [2] 也提出了基于 Spear- 图 1所示,该模型由3个模块组成:前端网络模块、注
man 相关性分析和随机森林特征选择的方法提取 意力机制融合模块和后端网络分类模块。前端网络
相关性最弱的特征以进行融合。基于网络中间层 模块对输入的语声信号进行预加重和分帧加窗等
进行的融合则利用神经网络将原始特征转化为高 处理后,提取梅尔倒谱系数(Mel-frequency cepstral
维特征表达,以获取不同模态数据在高维空间的 coefficients, MFCC) 和逆梅尔倒谱系数 (Inverted
融合表示。Cao等 [3] 在话语级别的情感识别中使用 MFCC, IMFCC)作为谱特征,把谱特征输入到二维
门控记忆单元 (Gated memory unit, GMU) 来获取 卷积神经网络 (Two dimensional CNN, 2D-CNN)
语声信号的静态与动态特征融合后的情感中间表 得到 MFCC 2D-CNN 和 IMFCC 2D-CNN;提取散
示。Zhang 等 [4] 提出了基于块的时间池化策略用 射卷积网络系数 (Scattering convolution network
于融合多个预训练的卷积神经网络 (Convolutional coefficients, SCNC) 作为时序特征,把时序特征输
neural network, CNN) 模型学习到的片段级情感 入到长短期记忆网络 (Long-short term memory,
特征,得到固定长度的话语级情感特征。语声特 LSTM) 中得到 SCNC LSTM。注意力机制融合模
征的融合还可基于多个模型在其输出阶段进行决 块引入 SE 通道注意力机制,将 MFCC 2D-CNN、
策级融合以集成其情感分类结果 [5] 。Noh 等 [6] 使 IMFCC 2D-CNN 和SCNC LSTM 前端网络中提取
用基于验证准确度的指数加权平均法则组成了分 的中间层进行加权融合得到融合深度特征 (Fusion
级投票决策器对多个 CNN 模型的决策结果进行 deep feature, FDF)。后端分类模块基于 DNN构建
融合。Yao 等 [7] 使用基于置信度的决策级融合整 分类器,依据输入的FDF映射输出情感分类结果。
合了在多任务学习中获得的循环神经网络 (Recur-
rent neural network, RNN)、CNN 和深度神经网络 1.1 基 于 MFCC 和 IMFCC 特 征 的 2D-CNN
前端网络
(Deep neural network, DNN)。
注意力机制可用于自动计算输入数据对输出 MFCC 和IMFCC谱特征中不同频谱区间的频
数据的贡献大小,近年来也在语声识别相关领域 谱能量分布体现着不同情感状态下的声道形状和
得到了较多运用。Bahdanau 等 [8] 将注意力机制 发声状态 [11] ,其中计算 MFCC 特征时使用的 Mel
应用于 RNN 和 n-gram 语言模型,建立了端到端 三角滤波器模拟了人耳听觉的非线性机制,更加关
的序列模型。Mirsamadi 等 [9] 将基于局部注意力 注于语声信号的低频部分而对中高频的变化不够
机制的加权时间池化策略用于 RNN 模型,以学 敏感 [12] ;IMFCC特征则通过 IMel 滤波器在高频区
习与情感相关的短时帧级特征。Kwon [10] 使用特 域分布更加密集来获取更多高频信息 [13] 。Hz 频率