Page 113 - 201806
P. 113
第 37 卷 第 6 期 杨洋等: 基于改进卷积神经网络算法的语音识别 943
[ ]
值,b表示对应的偏置。 1
(i)
2
∂
h W,b (x ) − y (i)
2
Fisher准则在提取语音信号的整体特征时是以 ∂E = 2
∂u i ∂u i
训练语音数据集的音素类别信息为基础的。其基本 R R
(
( i ) (i) ) ′ ( i )
原理是基于类内离散程度矩阵和类间离散程度矩 = f u R − y ◦ f u R , (6)
i
阵,依据一定的数学计算规则寻找一个最佳投影空 u = w x i + b , (7)
i
i
R
R R−1
R
间,在该投影空间上样本点尽量按类别区分开,从而 其中,u 为输出层第 i 个单元的输入,w 和 b 分
i
i
i
R R R
实现最佳分类并缩小了特征空间的维数 [16] 。小规 i 表示
别为输出层 R 第i 个单元的权重和偏置,x
R−1
模数据很容易出现过拟合问题,L2 正则化在代价函 全接入层 R − 1 层第 i 个单元的输出,f (•) 为激活
数的基础上加上一个正则化惩罚项,减小权值的数 函数。
量级,限制过拟合。 对于 J w 类内散布度量函数,输出层的反传误
借鉴Fisher准则和L2正则化的思想,加入类内 差信号为
和类间散布度量函数和 L2 正则化惩罚项的代价函 n m i
∂J w ∂ 1 ∑ ∑
(i,j) (j)
2
数表示为 i = i
h W,b (x ) − M
∂u
R ∂u R 2 j=1 i = 1
λ ∑ 2 n
m i
C = E + aJ w − bJ b + ∥w∥ 2 ∑ ∑ ( (i,j) (j) )
2 = h W,b (x ) − M
w
λ ∑ 2 j=1 m = 1
= C 0 + ∥w∥ , (2) ( (i,j) )
2
′
)
2 × (h W,b (x )) − (M (j) ′
w
n m i
n m i ( )
1 ∑ ∑ ( (i,j) )
2 ∑ ∑ ( ) 1 ( )
J w =
h W,b x − M (j)
(3) = f u i R − f u i R
,
2 m i
j = 1 i = 1 j = 1 i = 1
n n ( )
1 ∑ ∑
(k)
2 ( i ) 1 ( i )
,
M
J b =
− M (j)
(4) × f ′ u R − f ′ u R . (8)
2 m i
k=1 j = k+1
对于 J b 类间散布度量函数,输出层的反向传播
其中,J w 为类内散布度量函数;J b 为类间散布度量 残差为
函数;a、b 为常数,取值范围通常在0 ∼ 1;λ (λ > 0) n n
∂J b ∂ 1 ∑ ∑
(k)
2
为正则化参数,用来权衡正则项与 C 0 的比重;w 为 i = i
M − M (j)
∂u R ∂u R 2
各层神经元连接权值。 k=1 j=i+1
n n
J w 定义为训练样本的真实输出与其所属类的 = ∑ ∑ ( M (k) − M (j) )
样本均数之间的距离总和,其中 m i 为第j 类的样本 k=1 j=i+1
( )
数量,样本的种类数为 n,第 j 类的第 i 个样本的实 × (M (k) ′ (j) ′
)
) − (M
( )
际输出为 h W,b x (i,j) ;J b 定义为所有异类样本均 n n )
∑ ∑ ( (k) (j)
数的距离总和,M (k) 和 M (j) 分别为第k 类和第j 类 = M − M
k = 1 j = i+1
的样本均值,第j 类的样本均值M (j) 为 [ ( 1 )
× m i M (k) · − M (k)
m i
∑ ( (i,j) ) m i
h W,b x ( 1 ) ]
(j) i = 1 − m i M (j) · − M (j) . (9)
M = . (5) m i
m i
则输出层第i个单元的反传残差为
CNN 在用 BP 算法进行参数微调时,最重要的 ∂E
i
δ = ∂C 0 = + a ∂J w − b ∂J b . (10)
就是利用代价函数计算出输出层的反传误差信号 R ∂u i ∂u i ∂u i ∂u i
R R R R
(残差),然后将残差由输出层自顶向下的传播至输 计算出输出层的反向传播残差以后,通过 BP
入层,利用梯度下降算法进行权值和偏置的更新。 算法每次迭代更新网络参数时,能使参数向更有利
对于最小平方误差函数,输出层每个单元的反 于分类的方向靠拢。加上正则项以后,梯度下降法
向传播残差计算公式为 更新所有网络参数的计算公式为