Page 112 - 201806
P. 112
942 2018 年 11 月
ᣥКࡏ Ԅሥࡏ ᐑՌࡏ Лᤌଌࡏ ᣥѣࡏ
图 1 标准卷积模型
Fig. 1 Standard convolution model
近几年,图像识别、目标定位等领域被研究者 特征。
广泛使用的深度学习算法就是 CNN。CNN 用于语 标准 CNN 的代价函数一般都是最小均方误差
音识别时,提取的声学特征仍然采用类似于图像识 函数,CNN在训练和学习参数的过程中要使得该代
别中的二维矩阵输入形式,一个维度代表时域,一 价函数达到最小。在前向传播特征学习阶段,CNN
个维度代表频域 [14] 。声学特征的二维矩阵输入形 依据局部卷积、权值共享以及下采样原则,使得模
式如图 2 所示,假设语音数据被分成 25 帧,25 帧语 型结构复杂度大大降低,鲁棒性增强。在微调阶段,
音数据的静态声学特征、一阶差分和二阶差分沿水 通过误差反向传导算法(Back propagation,BP) [15]
平方向的时间域 (语音数据帧) 和垂直方向的频率 自顶向下小幅度地调节所有层的权值和偏置,使得
(频带指数) 分布。将声学特征二维映射矩阵输入到 输出层每个单元的真实输出值与输入样本标签值
CNN,可进行二维卷积运算提取深层次的语音信号 最接近。
᭢গ ʷࣀѬ ̄ࣀѬ
36
ᮠ
ࣜ
ኄ1ࣝ ኄ25ࣝ ኄ1ࣝ ኄ25ࣝ ኄ1ࣝ ኄ25ࣝ
图 2 声学特征二维映射矩阵
Fig. 2 Acoustic characteristics two-dimensional mapping matrix
得训练的网络权值和偏置与最优值更加接近。
3 深度卷积模型的优化 3.1 深度卷积模型基于改进代价函数的BP算法
{( i i ) }
设训练集 S = x , y , 1 6 i 6 m ,训练集
识别连续语音库时代价函数只考虑最小均方
{ 1 2 m }
误差函数是比较单一的。一般会将总数据集按照 S 中包含 m 个样本 x , x , · · · , x ,它们可被划
i
i
分为 n 个类别,y 是样本 x 对应的类别标签值。则
一定的规则进行划分,一部分语音数据用来训练
CNN的最小平方误差损失函数为
CNN,一部分数据用来测试已经训练好的 CNN 模
[ ]
m (
2 )
型的性能。训练数据量太小,模型将过度学习数据, 1 ∑ 1
(i)
E =
h W,b (x ) − y
, (1)
(i)
容易过度拟合,因此引入 L2 正则化的约束;而且为 m i = 1 2 2
了实现最优分类,使得最终的样本分类结果可以达 式 (1) 中,E 为最小平方误差损失函数,m 表示总的
(
到类内距离小、类间距离大的目的,本文同时也会 样本数,h W,b x (i) ) 为训练样本 x 经过CNN训练后
i
引入 Fisher 准则的约束,与 L2 正则化结合使用,使 得到的实际输出,W 表示各层神经元之间连接的权