Page 168 - 《应用声学》2022年第5期
P. 168

844                                                                                  2022 年 9 月


                 results show that the weighted accuracy (WA) of the model on Emo-DB and IEMOCAP Speech database
                 are 86.8% and 69.4% respectively, and the unweighted accuracy (UA) are 84.7% and 65.5% respectively. The
                 proposed model STA-CRNN achieves better performance than most advanced methods for SER.
                 Keywords: Speech emotion recognition; Log-Mel; Spatiotemporal attention; Time features; Spatial features

                                                               图作为特征并取得了较为不错的效果,但是在使用
             0 引言
                                                               CNN 或 LSTM 网络进行特征提取时,忽略了在情

                 语声情感识别 (Speech emotion recognition,           感识别方面语声频谱图的不同片段区域存在较大
             SER) 是 “情感计算” 研究领域的一个重要分支                  [1] 。  差异性。而模型对于图中有效的空间特征和时间特
             SER 在人机智能辅助         [2] 、人机交互    [3−4] 、行为识       征的提取能力有限,导致大量的有效特征和无效特
             别  [5]  等应用中发挥着重要作用。在人机交互中,通                      征冗余,从而限制了 SER 模型的性能。而注意力机
             过输入的语声信号识别说话人的情感状态,可以起                            制 (Attention mechanism) 则可以利用其加权机制
             到监管、协助和指引的作用。因此 SER 的研究是一                         来过滤掉冗余特征         [20−22] ,捕获频谱图中的关键情
             项关键并富有挑战性的任务             [6−7] 。                  感信息,有利于关键特征的提取与学习,进而提高
                 近年来,SER 研究者们通过对多种特征和分                         SER识别率。
             类器的深入研究,使得 SER 的性能逐渐提高                     [8] 。      为了解决有效的情感特征提取问题,本文基于
             SER 最显著的特征是从整条语声中计算出的一维                           以上研究提出时空注意力-卷积递归神经网络(Spa-
             的低级描述符 (LLDs),例如能量、基频 (F0) 和 Mel                  tiotemporal attention-Convolution recursive neural
             频率倒谱系数(Mel frequency cepstrum coefficient,          network, STA-CRNN) 模型,即在 CRNN 模型中引
             MFCC) 等  [9] 。这些特征可以全面地捕捉语声的情                     入空间注意力 (Spatial attention)    [23]  机制和时间注
             感信息,进而有效地改善 SER 的识别率。然而这些                         意力 (Temporal attention)机制。在CNN 进行空间
             手工特征对于表征语声中的情感信息并不是最有                             特征提取时,空间注意力机制可以聚焦空间关键信
             效的,这可能导致性能不佳             [10] 。而卷积神经网络            息,使网络能够关注情感显著区域。在 LSTM 网络
             (Convolutional neural network, CNN) 和长短期记         进行时间特征提取时,时间注意力机制可以对不同
             忆 (Long short-term memory, LSTM) 网络在 SER          时间序列片段特征给予权重,提高有效特征的提取
             特征提取方面表现出卓越的性能                [11] 。这两种网络         能力。
             能够从大量训练样本中提取关键信息特征进而提                                 本文贡献如下:(1) 提出了一种基于时空注意
             高SER 的识别率      [12] 。Mao等 [13]  提出利用CNN 提         机制的 CRNN 网络模型,包括 CNN 和 LSTM 两个
             取 LLDs 有效的语声情感信息,并在多个公开数据                         模块;(2) 经过实验确定了空间注意力机制在 CNN
             集上表现出优异的性能。Senthilkumar 等             [14]  使用    网络层中的最佳层间位置;(3) 验证了时空注意力
             LSTM 学习语声信号之间帧与帧的特征信息,获得                          机制的CRNN网络模型能够明显提高SER识别率。
             了较好的 SER 结果。但是,传统的一维 LLDs 特征
             存在着频域信息缺失问题             [15] ,因此,研究者们纷            1 STA-CRNN模型结构
             纷将语声信号转换成二维时频特征如频谱图、对数
             Mel 频谱图 (Log-Mel) 等作为 SER 模型的输入,用                     本 文 提 出 了 一 种 基 于 时 空 注 意 力 机 制 的
             来提取语声高级情感特征,与传统声学特征相比                             CRNN 模型。模型分为两大部分:基于空间注意力
             表现出更好的性能         [16−17] 。如Trigeorgis等 [18]  利用   机制的 CNN 网络和基于时间注意力机制的 LSTM
             CNN和LSTM网络提取语声频谱图的时空特征,其                          网络。模型结构如图1所示,首先将Log-Mel谱图和

             实验结果要优于在一维特征上的实验结果。Zhang                          其一阶、二阶差分组成三维Log-Mel谱图,输入到基
             等  [19]  则将一维的语声信号转换为具有 RGB 三通                    于空间注意力机制的 CNN 网络中,充分提取其空
             道的频谱图,并将其作为 CNN 模型的输入。其实                          间特征;其次将输出结果输入到基于时间注意力机

             验结果表明,在三通道语声频谱图上进行 SER的性                          制的 LSTM 网络中,再将得到的向量输入到全连接
             能比一维特征优越。尽管上述研究者们利用频谱                             层中,进行Softmax分类,最终得到情感类别。
   163   164   165   166   167   168   169   170   171   172   173