Page 169 - 《应用声学》2022年第5期
P. 169

第 41 卷 第 5 期               张志浩等: 基于 STA-CRNN 模型的语声情感识别                                      845


                                CNNവڱ                                  LSTMവڱ
                                                 Connect
                                           Avg
                                                                       BiLSTM                          Angry
                                          Channel             Sigmoid  LSTM                           Disgust
                                                                                                       Fear
                         Log-Mel, Delta
               ௑ᫎऀѵ                        Max                                      Temporal attention  …  …  Neutral
                                                                                                       Happy
                                                                                                       Sad
                                                   Conv                LSTM                           Boredom
                                           Spatial attention
                    ྲढ़          Conv
                                                  图 1  STA-CRNN 模型结构
                                                Fig. 1 Structure of STA-CRNN

             1.1 基于空间注意力机制的CNN网络                                     o(t) = σ(W h t−1 + W x t + b o ),    (5)
                                                                                o
                                                                                          o
                                                                                h         x
                 在 CNN 网络中,卷积模块包括 6 个卷积层、2                           c(t) = c(t − 1) ∗ f(t) + i(t) ∗ α(t),  (6)
             个最大池化层和 1 个空间注意力层。卷积层的第
                                                                     h(t) = o(t) ∗ tanh(c(t)),            (7)
             一层和第二层有 128 个输出通道,池化层的大小为
                                                               其中,f(t)、i(t)、o(t)、c(t) 分别表示 t 时刻遗忘门、输
             2 × 4。其他卷积层的输出通道为256,卷积核的大小
                                                               入门、输出门的值,α(t)表示t时刻对h t−1 和x t 的初
             为5 × 3,为了防止过拟合,在每个卷积后添加Relu、
             Drop 和 BN 模块,并在最后一次卷积后,加入空间                       步特征提取。x t 表示 t 时刻的输入,h t−1 表示 t − 1
                                                               时刻的隐层状态值。W 表示权重矩阵,b 为偏置值;
             注意力层。
                                                               tanh表示正切双曲函数,σ 表示激活函数Sigmoid。
                 空间注意力的计算过程如下:首先将卷积模块
                                                                   BiLSTM 由两个 LSTM 层组成,并通过方向相
             输出的特征图作为空间注意力层的输入特征图,再
                                                               反的两个 LSTM 层来提取信息,包括将来和过去的
             对其做一个基于通道的最大池化(Maxpool)和平均
                                                               隐藏信息,最后拼接并输出,见公式(8):
             池化 (Avgpool) 操作,并将它们连接起来生成一个
                                                                                  − →      ←−
             有效的特征图,如公式(1)所示:                                            z t = w−→ h t + w−→ h t + b x .  (8)
                                                                               z x       z x
                                       S
                                            S
                     M s (F) = σ(f 7×7 ([F avg ; F max ])),  (1)   在BiLSTM的基础上,添加一个时间注意力层,
                                                               该注意力机制会根据式 (9)计算出在不同时间序列,
                                                     S
             其 中, f  7×7  表 示 7 × 7 的 卷 积 核 尺 寸, F   avg  ∈    BiLSTM 输出序列的权重参数,然后采用式 (10) 根
                         S
             R 1×H×W  和 F max  ∈ R 1×H×W  分别表示通道上的
             平均池化特征和最大池化特征。                                    据权重大小将编码序列中的每一个向量进行加权
                                                               求 µ 和,最终得到 attention 数值,并通过 Softmax
                 接着将这两个结果做融合和卷积操作,降维至
                                                               分类器预测情感类别。
             一个通道。再经过Sigmoid生成空间注意力特征图。
                                                                                   exp(W h t )
             最后将该特征图和该模块的输入特征图做乘法,得                                        µ t =  ∑ T           ,         (9)
             到最终生成的特征。                                                             t=1  exp(W h t )

             1.2 基于时间注意力机制的BiLSTM网络                                                ∑ T
                                                                               µ =       µ t h t .       (10)
                                                                                      t=1
                 为了获取 Log-Mel 谱图的时间特征,采用基于
             注意力机制的双向长短时记忆网络 (BiLSTM) 对                        2 实验与分析
             卷积模块的输出结果进行时间序列上的特征提取。
             LSTM主要由遗忘门、输入门、输出门以及隐藏状态                              为了检验本文所提出模型的性能,选择柏林语

             所构成,具体的计算过程为                                      声情感数据集 (Emo-DB)        [24]  和交互式情绪二元运
                                                               动捕捉(IEMOCAP)数据集          [25]  进行相关实验。
                              f         f
                   f(t) = σ(W h t−1 + W x t + b f ),    (2)
                             h          x                          Emo-DB: 该 数 据 集 由 来 自 7 种 情 绪 状 态
                             i
                                       i
                   i(t) = σ(W h t−1 + W x t + b i ),    (3)    (anger、boredom、disgust、fear、happy、neural、
                             h
                                       x
                                           α
                                 α
                   α(t) = tanh(W h t−1 + W x t + b α ),  (4)   sad) 共 535个话语组成。库中的话语由讲德语的 10
                                h
                                           x
   164   165   166   167   168   169   170   171   172   173   174