Page 95 - 应用声学2019年第2期
P. 95
第 38 卷 第 2 期 王玮蔚等: 基于变分模态分解的语音情感识别方法 241
L
50 ∑
β i g(W i · X j + b i ) = o j , j = 1, · · · , N, (14)
ࣨए 0 i=1
式 (14) 为 ELM 神经网络处理输入数据的公式,式
-50 中 g(x) 为激活函数,W i = [w i,1 , w i,2 , · · · , w i,n ] 为
T
50
输入权重,β i 为输出权重,b i 为第 i个隐藏单元的偏
12
ࣝ
0 2 4 6 8 10 置,X j 是输入的数据,·表示内积。
0
单隐层神经网络学习目标是使输出误差最小,
图 5 FEAR 语句 12 阶 VMD-MFCC 参数
表示为
Fig. 5 FEAR statement 12th order VMD-MFCC
N
parameters ∑
∥o j − t j ∥ = 0, (15)
j=1
2 分类算法
即存在β i 、W i 和b i ,使得
L
2.1 分类算法简介 ∑
β i g(W i · X j + b i ) = t j , j = 1, · · · , N. (16)
语音情感识别中最常用的分类器是支持向量
i=1
机 [15−16] (Support vector machine, SVM)、人工神 以矩阵的形式表示为
经网络 [11,17−18] (Artificial neural network, ANN)、
Nβ = T ,
K 最近邻算法 [12] (K-nearest neighbor, KNN)、El-
N(W 1 , · · · , W L , b 1 , · · · , b L , X 1 , · · · , X L )
man 神经网络 [12] 、高斯混合模型 [19] (Gaussian
mixture model, GMM) 长短时神经网络 [20] ( Long g(W 1 · X 1 + b 1 ) · · · g(W L · X N + b L )
. .
short-term memory, LSTM) 和隐马尔可夫模型 [10] . . ,
= . · · · .
(Hidden Markov model, HMM)。在众多人工神
g(W 1 · X N + b 1 ) · · · g(W L · X N + b L )
经网络中,将快速模型学习与准确预测能力相 N×L
结合的极限学习机,应用于多模式情感识别和 β 1 T T 1 T
.
.
计算语言学,以适度的计算资源获得了最好的 β = . , T = . , (17)
.
.
结果 [21−23] 。
β T T T
L N
L×m N×m
2.2 ELM简介
式 (17) 中,N 为隐含层节点输出,β 为隐含层到输
最初,ELM作为单隐层前馈网络的一种快速学 出层的权重系数,T 为训练所需要得到的期望结果。
习方法 ——反向传播的另一种方法提出 [21] 。与传
为了对隐含层神经元进行训练,得到 β i 、W i 和 b i
统的神经网络和机器学习算法相比,ELM 方法学 的解为
习速度快、泛化性能好。因此,本实验采用 ELM 方
ˆ
ˆ ˆ
N(W i , b i )β i − T = min ∥N(W i , b i )β i −T ∥,
法进行情感特征分类,基本 ELM的体系结构如图 6 W ,b,β
所示。 (18)
式 (18) 中,i = 1, · · · , L,该式用最小化损失函数
⊲⊲⊲
T T T h 表示为
( ) 2
N L
∑ ∑
E = β i g(W i · X j + b i ) − t j . (19)
j=1 i=1
⊲⊲⊲
N N N n
传统的一些基于梯度下降法算法 (如反向传播
(Back propagation, BP)、多层感知器 (Multi-layer
perception, MLP))可以用来求解这样的问题,但这
⊲⊲⊲
些学习算法需要在迭代过程中调整所有参数。而
X X X X k
图 6 ELM 基本结构图 ELM 算法的输入层权重 W i 和隐含层 b i 在初始化
Fig. 6 ELM basic structure 时已被随机产生且唯一,因此隐含层的输出矩阵