Page 201 - 《应用声学)》2023年第5期
P. 201
第 42 卷 第 5 期 朱应俊等: 注意力机制融合前端网络中间层的语声情感识别 1093
MFCC ̄፥ తܸ ̄፥ తܸ ̄፥
Ԅሥ ӑ Ԅሥ ӑ Ԅሥ
. . .. ..
128@3f8 256@3f8
32@10f32 128@5f16
2.0
1.5
1.0 32@20f63 ̄
0.5 ፥
0
Ԅ
ሥ
Happy
̄፥
Angry
Softmax Лᤌଌࡏ Лᤌଌࡏ Flatten Ԅሥ
Sad
Neutral
Surprise
Fear 128@3f8 256@3f8
图 2 基于 MFCC 与 IMFCC 的 2D-CNN 前端网络结构
Fig. 2 2D-CNN front-end network structure based on MFCC and IMFCC
其中,p t 表示分类器预测的概率值,γ 为权重放大因 S [p] x (u) = U [p] x ⊗ ϕ J (u)
2
子,α t 是类别权重。为了增大 2D-CNN 前端网络对 ∫
= U [p] x (v) ϕ J (u − v) dv, (6)
2
难分类样本的权重,将 γ 取为 4,因为数据集中各类
情感样本数目相同,将α t 设置为1。 其中,对于每条路径 p,S[p]x(u) 是窗口位置 u 的函
1.2 基于SCNC特征的LSTM前端网络 数,将式 (5) 代入其中即可得到计算 m 阶加窗散射
系数的公式如下:
本文引入了由不变散射卷积网络 (Invariant
scattering convolution network, ISCN)自动提取的 S[p]x(u) = |||x ⊗ ψ λ 1 | ⊗ ψ λ 2 | · · · | ⊗ ψ λ 5 | ⊗ ϕ J(u).
2
SCNC 特征 [18] 作为时序特征。将语声帧视作短时 (7)
平稳信号,输入由多层小波散射变换与取模算子级 为了提高特征的高频分辨率,将分帧加窗后
联得到的 ISCN 中,提取其散射系数作为 SCNC 特 的语声片段输入由 5 层小波变换和取模算子级联
征,该特征能够最小化信号的平移和形变的影响,具 得到的 ISCN 中,以提取网络的加窗散射系数作为
有较强的变形稳定性,且保留用于分类的高频信息, SCNC特征。
故在网络中间层对特征进行融合时能够维持分类 LSTM 相较于 CNN 可以更好地处理时间序列
鲁棒性 [19] 。 的任务,同时 LSTM 解决了 RNN 的长时依赖问
对语声信号进行的小波变换可表示为 {x ⊗ 题 [20] ,并避免了反向传播过程中的梯度消失 [21] 。
ψ λ } λ ,其中指数 λ = 2 −j r 给出了带通滤波器 ψ λ 本文搭建了基于 SCNC 特征的 LSTM 前端网络,网
的频率位置,⊗ 表示卷积运算,对于语声信号仅 络由 LSTM 层和 3 层全连接层组成,为对应每帧语
计算 λ 在 r ∈ [0, π) 范围内所对应的路径。沿路径 声提取到的32维的SCNC特征,LSTM层设置了32
p = (λ 1 , λ 2 , · · · , λ m ) 迭代进行小波变换和取模运 个节点,每个节点通过 126 个时间步进行更新 [22] 。
算可求得小波变换系数: 单个节点的结构如图3所示。
U [p] x = U [λ m ] · · · U [λ 2 ] U [λ 1 ] x 在 LSTM 节点中,X t 表示 SCNC 特征沿时间
轴的输入,C t 表示由当前输入产生的细胞待更新的
|. (5)
= |||x ⊗ ψ λ 1 | ⊗ ψ λ 2 | · · · | ⊗ ψ λ m
状态,由输入门 i t 和遗忘门 f t 决定当前细胞状态
为得到具有更好变形稳定性的局部描述符,将 要如何更新,细胞状态的迭代公式为
(
)
J
空间窗函数 Φ (u) = 2 −2J Φ 2 −J u 与小波系数进
2 ˆ
行积分以得到路径 p 上的加窗散射系数: C t = f t × C t−1 + i t × C t . (8)