Page 201 - 《应用声学)》2023年第5期
P. 201

第 42 卷 第 5 期           朱应俊等: 注意力机制融合前端网络中间层的语声情感识别                                         1093



                      MFCC  ̄፥                    తܸ           ̄፥            తܸ            ̄፥
                            Ԅሥ                    ෉ӑ           Ԅሥ            ෉ӑ            Ԅሥ
                                        . . .. ..

                                                                                  128@3f8      256@3f8
                                                     32@10f32      128@5f16
                          2.0
                         1.5
                       1.0         32@20f63                                                        ̄
                     0.5                                                                           ፥
                   0
                                                                                                   Ԅ
                                                                                                   ሥ
                                   Happy
                                                                                           ̄፥
                                   Angry
                                            Softmax   Лᤌଌࡏ       Лᤌଌࡏ      Flatten         Ԅሥ
                                    Sad
                                   Neutral
                                   Surprise
                                    Fear                                         128@3f8        256@3f8





                                       图 2  基于 MFCC 与 IMFCC 的 2D-CNN 前端网络结构
                               Fig. 2 2D-CNN front-end network structure based on MFCC and IMFCC

             其中,p t 表示分类器预测的概率值,γ 为权重放大因                                  S [p] x (u) = U [p] x ⊗ ϕ J (u)
                                                                                               2
             子,α t 是类别权重。为了增大 2D-CNN 前端网络对                                ∫
                                                                        =    U [p] x (v) ϕ J (u − v) dv,  (6)
                                                                                       2
             难分类样本的权重,将 γ 取为 4,因为数据集中各类
             情感样本数目相同,将α t 设置为1。                               其中,对于每条路径 p,S[p]x(u) 是窗口位置 u 的函
             1.2 基于SCNC特征的LSTM前端网络                             数,将式 (5) 代入其中即可得到计算 m 阶加窗散射
                                                               系数的公式如下:
                 本文引入了由不变散射卷积网络 (Invariant
             scattering convolution network, ISCN)自动提取的        S[p]x(u) = |||x ⊗ ψ λ 1  | ⊗ ψ λ 2  | · · · | ⊗ ψ λ 5 | ⊗ ϕ J(u).
                                                                                                       2
             SCNC 特征   [18]  作为时序特征。将语声帧视作短时                                                              (7)
             平稳信号,输入由多层小波散射变换与取模算子级                                为了提高特征的高频分辨率,将分帧加窗后
             联得到的 ISCN 中,提取其散射系数作为 SCNC 特                      的语声片段输入由 5 层小波变换和取模算子级联
             征,该特征能够最小化信号的平移和形变的影响,具                           得到的 ISCN 中,以提取网络的加窗散射系数作为
             有较强的变形稳定性,且保留用于分类的高频信息,                           SCNC特征。
             故在网络中间层对特征进行融合时能够维持分类                                 LSTM 相较于 CNN 可以更好地处理时间序列
             鲁棒性   [19] 。                                      的任务,同时 LSTM 解决了 RNN 的长时依赖问
                 对语声信号进行的小波变换可表示为 {x ⊗                         题 [20] ,并避免了反向传播过程中的梯度消失                  [21] 。
             ψ λ } λ ,其中指数 λ = 2  −j  r 给出了带通滤波器 ψ λ           本文搭建了基于 SCNC 特征的 LSTM 前端网络,网
             的频率位置,⊗ 表示卷积运算,对于语声信号仅                            络由 LSTM 层和 3 层全连接层组成,为对应每帧语
             计算 λ 在 r ∈ [0, π) 范围内所对应的路径。沿路径                   声提取到的32维的SCNC特征,LSTM层设置了32
             p = (λ 1 , λ 2 , · · · , λ m ) 迭代进行小波变换和取模运       个节点,每个节点通过 126 个时间步进行更新                   [22] 。
             算可求得小波变换系数:                                       单个节点的结构如图3所示。

                     U [p] x = U [λ m ] · · · U [λ 2 ] U [λ 1 ] x  在 LSTM 节点中,X t 表示 SCNC 特征沿时间
                                                               轴的输入,C t 表示由当前输入产生的细胞待更新的
                                               |.       (5)
                   = |||x ⊗ ψ λ 1  | ⊗ ψ λ 2  | · · · | ⊗ ψ λ m
                                                               状态,由输入门 i t 和遗忘门 f t 决定当前细胞状态
                 为得到具有更好变形稳定性的局部描述符,将                          要如何更新,细胞状态的迭代公式为
                                       (
                                            )
                         J
             空间窗函数 Φ (u) = 2     −2J Φ 2 −J u 与小波系数进
                         2                                                                     ˆ
             行积分以得到路径 p 上的加窗散射系数:                                         C t = f t × C t−1 + i t × C t .  (8)
   196   197   198   199   200   201   202   203   204   205   206