Page 115 - 201806
P. 115

第 37 卷 第 6 期               杨洋等: 基于改进卷积神经网络算法的语音识别                                           945


                                        表 1   TIMIT 测试集上不同模型之间的性能对比
                        Table 1 Performance comparison between different models on TIMIT corpus

                                  模型                    激活函数类型              代价函数              WER(%)

                                一般模型                      sigmoid           平方误差                24.1
                                Fisher 模型                 sigmoid        平方误差 + Fisher          23.0
                           Fisher 模型 + L2 正则化             sigmoid      平方误差 + Fisher + L2       22.7

                     Fisher 模型 + L2 正则化 + log 激活函数      log 激活函数       平方误差 + Fisher +L2        22.5

             4.2 基于THCHS30数据库的实验                               聚合层采用最大聚合算法,步长为 3 × 3;第二个卷

                 上述的 TIMIT 语音识别数据库是一个开源的                       积层的卷积核尺寸为 4×4,卷积核数目为 256,步进
             英文语音库,为了验证所提算法的有效性,进一步在                           为1 × 1,聚合层步长为2 × 2;第三层和第四层为全
             中文语音库上进行对比实验。实验在清华大学中文                            连接层,每个层由 1024个单元组成;softmax输出层
             语音数据集 THCHS30 上进行,该语音库是总时长                        由3386个单元组成。
             超过 30 h 的汉语普通话数据集,采样频率 16 kHz,
                                                                   表 2 给出了 THCHS30 测试集上不同模型之间
             采样大小 16 bits。其中训练数据集时长约为 25 h,
                                                               的对比实验结果:WER 的变化趋势与 TIMIT 数据
             共 10000 句;测试数据共 2495 句,全集长度约 6 h。
                                                               库的实验结果类似。总体来说,使用本文提出的
             选用3-gram的word级统计语言模型。
                                                               优化 CNN 算法的语音识别率比一般模型提高了
                 本实验采用四隐层的 CNN 结构,特征是 40 维
             的FBANK,并且相邻的帧由11帧窗口(每侧5个窗                         1.49%。从表 1 和表 2 的性能对比实验结果中可看
             口) 连接。对每帧声学特征做倒谱均值和归一化以                           出,本文所提出的改进 CNN 算法无论是基于英文
             获得CNN的输入。其中,CNN的第一个卷积层的卷                          语音库还是中文语音库,识别性能均比传统的CNN
             积核尺寸为 9 × 9,卷积核数目为 128,步进为 1 × 1,                 模型要好。


                                       表 2  THCHS30 测试集上不同模型之间的性能对比
                      Table 2 Performance comparison between different models on THCHS30 corpus

                                  模型                    激活函数类型              代价函数              WER(%)

                                一般模型                      sigmoid           平方误差                23.68
                                Fisher 模型                 sigmoid        平方误差 + Fisher          22.76
                           Fisher 模型 + L2 正则化             sigmoid      平方误差 + Fisher + L2       22.43

                     Fisher 模型 + L2 正则化 + log 激活函数      log 激活函数       平方误差 + Fisher +L2        22.19

                                                               题,并使得各类音素状态间的距离大,音素状态内的
             5 结论                                              语音数据帧距离小,相比于标准 CNN 网络,改进的
                                                               CNN算法的泛化能力更强,语音识别率更高。
                 本文提出的改进CNN算法将 Fisher准则和 L2
             正则化作为惩罚项引入CNN的代价函数中,并基于
                                                                              参 考 文        献
             生物神经元的激活模型提出一种新型的 log 激活函
             数,有效地改善了CNN的语音识别性能。在TIMIT                           [1] 俞栋, 邓力, 俞凯, 等. 解析深度学习语音识别实践 [M]. 北京:
                                                                   电子工业出版社, 2016.
             以及 THCHS30 语音库上的实验结果表明,所提算
                                                                 [2] 侯一民, 周慧琼, 王政一. 深度学习在语音识别中的研究进展
             法较好地缓解了语音识别时容易出现的过拟合问                                 综述 [J]. 计算机应用研究, 2017, 34(8): 2241–2246.
   110   111   112   113   114   115   116   117   118   119   120