Page 112 - 201806
P. 112

942                                                                                 2018 年 11 月












                                  ᣥКࡏ              Ԅሥࡏ              ᐑՌࡏ       Лᤌଌࡏ ᣥѣࡏ
                                                     图 1  标准卷积模型
                                              Fig. 1 Standard convolution model


                 近几年,图像识别、目标定位等领域被研究者                          特征。
             广泛使用的深度学习算法就是 CNN。CNN 用于语                             标准 CNN 的代价函数一般都是最小均方误差
             音识别时,提取的声学特征仍然采用类似于图像识                            函数,CNN在训练和学习参数的过程中要使得该代
             别中的二维矩阵输入形式,一个维度代表时域,一                            价函数达到最小。在前向传播特征学习阶段,CNN
             个维度代表频域        [14] 。声学特征的二维矩阵输入形                 依据局部卷积、权值共享以及下采样原则,使得模
             式如图 2 所示,假设语音数据被分成 25 帧,25 帧语                     型结构复杂度大大降低,鲁棒性增强。在微调阶段,
             音数据的静态声学特征、一阶差分和二阶差分沿水                            通过误差反向传导算法(Back propagation,BP)            [15]
             平方向的时间域 (语音数据帧) 和垂直方向的频率                          自顶向下小幅度地调节所有层的权值和偏置,使得
             (频带指数) 分布。将声学特征二维映射矩阵输入到                          输出层每个单元的真实输出值与输入样本标签值
             CNN,可进行二维卷积运算提取深层次的语音信号                           最接近。

                                            ᭢গ             ʷ᫽ࣀѬ               ̄᫽ࣀѬ




                                36
                                ᮠ
                                ࣜ




                                      ኄ1ࣝ       ኄ25ࣝ    ኄ1ࣝ       ኄ25ࣝ    ኄ1ࣝ       ኄ25ࣝ
                                                 图 2  声学特征二维映射矩阵

                                  Fig. 2 Acoustic characteristics two-dimensional mapping matrix

                                                               得训练的网络权值和偏置与最优值更加接近。
             3 深度卷积模型的优化                                       3.1  深度卷积模型基于改进代价函数的BP算法

                                                                                 {(  i  i  )       }
                                                                   设训练集 S =        x , y , 1 6 i 6 m ,训练集
                 识别连续语音库时代价函数只考虑最小均方
                                                                                 {  1  2     m }
             误差函数是比较单一的。一般会将总数据集按照                             S 中包含 m 个样本 x , x , · · · , x    ,它们可被划
                                                                                       i
                                                                              i
                                                               分为 n 个类别,y 是样本 x 对应的类别标签值。则
             一定的规则进行划分,一部分语音数据用来训练
                                                               CNN的最小平方误差损失函数为
             CNN,一部分数据用来测试已经训练好的 CNN 模
                                                                         [                           ]
                                                                           m (    
               
 2 )
             型的性能。训练数据量太小,模型将过度学习数据,                                   1   ∑    1 
      (i)
                                                                  E =             
h W,b (x ) − y 
    ,  (1)
                                                                                                (i)
             容易过度拟合,因此引入 L2 正则化的约束;而且为                                 m  i = 1  2                 2
             了实现最优分类,使得最终的样本分类结果可以达                            式 (1) 中,E 为最小平方误差损失函数,m 表示总的
                                                                           (
             到类内距离小、类间距离大的目的,本文同时也会                            样本数,h W,b x   (i)  )  为训练样本 x 经过CNN训练后
                                                                                            i
             引入 Fisher 准则的约束,与 L2 正则化结合使用,使                    得到的实际输出,W 表示各层神经元之间连接的权
   107   108   109   110   111   112   113   114   115   116   117