Page 168 - 《应用声学》2022年第5期
P. 168
844 2022 年 9 月
results show that the weighted accuracy (WA) of the model on Emo-DB and IEMOCAP Speech database
are 86.8% and 69.4% respectively, and the unweighted accuracy (UA) are 84.7% and 65.5% respectively. The
proposed model STA-CRNN achieves better performance than most advanced methods for SER.
Keywords: Speech emotion recognition; Log-Mel; Spatiotemporal attention; Time features; Spatial features
图作为特征并取得了较为不错的效果,但是在使用
0 引言
CNN 或 LSTM 网络进行特征提取时,忽略了在情
语声情感识别 (Speech emotion recognition, 感识别方面语声频谱图的不同片段区域存在较大
SER) 是 “情感计算” 研究领域的一个重要分支 [1] 。 差异性。而模型对于图中有效的空间特征和时间特
SER 在人机智能辅助 [2] 、人机交互 [3−4] 、行为识 征的提取能力有限,导致大量的有效特征和无效特
别 [5] 等应用中发挥着重要作用。在人机交互中,通 征冗余,从而限制了 SER 模型的性能。而注意力机
过输入的语声信号识别说话人的情感状态,可以起 制 (Attention mechanism) 则可以利用其加权机制
到监管、协助和指引的作用。因此 SER 的研究是一 来过滤掉冗余特征 [20−22] ,捕获频谱图中的关键情
项关键并富有挑战性的任务 [6−7] 。 感信息,有利于关键特征的提取与学习,进而提高
近年来,SER 研究者们通过对多种特征和分 SER识别率。
类器的深入研究,使得 SER 的性能逐渐提高 [8] 。 为了解决有效的情感特征提取问题,本文基于
SER 最显著的特征是从整条语声中计算出的一维 以上研究提出时空注意力-卷积递归神经网络(Spa-
的低级描述符 (LLDs),例如能量、基频 (F0) 和 Mel tiotemporal attention-Convolution recursive neural
频率倒谱系数(Mel frequency cepstrum coefficient, network, STA-CRNN) 模型,即在 CRNN 模型中引
MFCC) 等 [9] 。这些特征可以全面地捕捉语声的情 入空间注意力 (Spatial attention) [23] 机制和时间注
感信息,进而有效地改善 SER 的识别率。然而这些 意力 (Temporal attention)机制。在CNN 进行空间
手工特征对于表征语声中的情感信息并不是最有 特征提取时,空间注意力机制可以聚焦空间关键信
效的,这可能导致性能不佳 [10] 。而卷积神经网络 息,使网络能够关注情感显著区域。在 LSTM 网络
(Convolutional neural network, CNN) 和长短期记 进行时间特征提取时,时间注意力机制可以对不同
忆 (Long short-term memory, LSTM) 网络在 SER 时间序列片段特征给予权重,提高有效特征的提取
特征提取方面表现出卓越的性能 [11] 。这两种网络 能力。
能够从大量训练样本中提取关键信息特征进而提 本文贡献如下:(1) 提出了一种基于时空注意
高SER 的识别率 [12] 。Mao等 [13] 提出利用CNN 提 机制的 CRNN 网络模型,包括 CNN 和 LSTM 两个
取 LLDs 有效的语声情感信息,并在多个公开数据 模块;(2) 经过实验确定了空间注意力机制在 CNN
集上表现出优异的性能。Senthilkumar 等 [14] 使用 网络层中的最佳层间位置;(3) 验证了时空注意力
LSTM 学习语声信号之间帧与帧的特征信息,获得 机制的CRNN网络模型能够明显提高SER识别率。
了较好的 SER 结果。但是,传统的一维 LLDs 特征
存在着频域信息缺失问题 [15] ,因此,研究者们纷 1 STA-CRNN模型结构
纷将语声信号转换成二维时频特征如频谱图、对数
Mel 频谱图 (Log-Mel) 等作为 SER 模型的输入,用 本 文 提 出 了 一 种 基 于 时 空 注 意 力 机 制 的
来提取语声高级情感特征,与传统声学特征相比 CRNN 模型。模型分为两大部分:基于空间注意力
表现出更好的性能 [16−17] 。如Trigeorgis等 [18] 利用 机制的 CNN 网络和基于时间注意力机制的 LSTM
CNN和LSTM网络提取语声频谱图的时空特征,其 网络。模型结构如图1所示,首先将Log-Mel谱图和
实验结果要优于在一维特征上的实验结果。Zhang 其一阶、二阶差分组成三维Log-Mel谱图,输入到基
等 [19] 则将一维的语声信号转换为具有 RGB 三通 于空间注意力机制的 CNN 网络中,充分提取其空
道的频谱图,并将其作为 CNN 模型的输入。其实 间特征;其次将输出结果输入到基于时间注意力机
验结果表明,在三通道语声频谱图上进行 SER的性 制的 LSTM 网络中,再将得到的向量输入到全连接
能比一维特征优越。尽管上述研究者们利用频谱 层中,进行Softmax分类,最终得到情感类别。