Page 171 - 《应用声学》2022年第5期
P. 171
第 41 卷 第 5 期 张志浩等: 基于 STA-CRNN 模型的语声情感识别 847
90
表 2 4 种模型实验结果
80
Table 2 Experimental results of four types
70
of models
60
(单位: %)
WA/% 50 CNN(AC1) Emo-DB IEMOCAP
CNN(AC2)
40
CNN(AC4)
30 CNN(AC3) 方法 (WA/UA) (WA/UA)
CNN(AC5)
20 CNN(AC6) (Base1)CNN+BiLSTM 84.4/82.3 65.6/61.3
CNN(AC7)
10
(Base2)ACNN+BiLSTM 85.1/83.4 67.2/63.5
0
0` 20` 40` 60` 80` 100` 120` 140` 160 (Base3)CNN+A-BiLSTM 85.4/83.8 67.6/63.9
Epochs (Base4) 并行 STA-CRNN 86.4/83.9 68.7/64.6
(a) ښEmo-DBः˗
本文模型 (STA-CRNN) 86.8/84.7 69.4/65.5
70
图3为在Emo-DB和IEMOCAP库中4种模型
60
的收敛曲线。
50
90
40
WA/% 30 CNN(AC1) 80
CNN(AC2)
CNN(AC3) 70
20 CNN(AC4) 60
CNN(AC5)
CNN(AC6) 50
10
CNN(AC7) WA/% CNN+BiLSTM
0 40 CNN+A-BiLSTM
0` 20` 40` 60` 80` 100` 120` 140` 160 30 ACNN+BiLSTM
Epochs ࣳᛡSTA-CRNN
20
(b) ښIEMOCAPः˗ వവی
10
图 2 CNN(AC1-7) 在 Emo-DB 库和 IEMOCAP 库 0
0` 20` 40` 60` 80` 100` 120` 140` 160
中的收敛曲线 Epochs
Fig. 2 Convergence curves of CNN (AC1-7) in (a)NjښEmo-DBः˗
Emo-DB and IEMOCAP
80
2.3.2 STA-CRNN实验结果分析 70
60
为了验证本文所提模型的有效性,创建了由
50
CNN+BiLSTM模型以及在此基础上加入两种注意 40
力机制所组成的基线模型。设置了具体实验如下: WA/% CNN+BiLSTM
30 CNN+A-BiLSTM
(1) Base1(CNN+BiLSTM):以CNN+BiLSTM 20 ACNN+BiLSTM
ࣳᛡSTA-CRNN
作为基线模型。 10 వവی
(2) Base2(ACNN+BiLSTM):在Base1 的基础 0
0` 20` 40` 60` 80` 100` 120` 140` 160
上,在CNN中加入时空注意力层。 Epochs
(3) Base3(CNN+A-BiLSTM):在 Base1 的基 (b)NjښIEMOCAPः˗
础上,在BiLSTM网络后加入时间注意力层。 图 3 在 Emo-DB 和 IEMOCAP 库中 4 种模型收敛
(4) Base4(并行 STA-CRNN):将带有空间注意 曲线
力机制的 CNN 和时间注意力机制的 BiLSTM 采取 Fig. 3 Convergence curves of four model in Emo-
并行方式,采用特征融合的方法,和本文串行的 DB and IEMOCAP
STA-CRNN模型进行对比。 通过表 2 和图 3 可知,在 Base1 的基础上,不论
(5) 本文模型 (STA-CRNN):和上述实验进行 是在 CNN 中 (Base2) 还是在 BiLSTM 中 (Base3) 加
对比,验证本文所提出网络的有效性。 入注意力层,WA 和UA 都有增长,但是都没有达到
表2为4种模型的实验结果。 预期的效果。而本文的模型把两种注意力机制结合