Page 65 - 《应用声学》2020年第2期
P. 65
第 39 卷 第 2 期 Vol. 39, No. 2
2020 年 3 月 Journal of Applied Acoustics March, 2020
⋄ 研究报告 ⋄
SE-MCNN-CTC的中文语音识别声学模型 ∗
张 威 1 翟明浩 1 黄子龙 1 李 巍 2 曹 毅 1†
(1 江南大学机械工程学院 无锡 214122)
(2 苏州工业职业技术学院 苏州 215104)
摘要:为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积
神经网络 (DCNN)-连接时序分类 (CTC) 为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合
对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络 (MCNN)-连接时序分类 (CTC),并
联合 SENet 提出了深度 SE-MCNN-CTC 声学模型,该模型融合了 MCNN 与 SENet 的优势,既能加强卷积神
经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:
SE-MCNN-CTC 相较于 DCNN-CTC 错误率相对降低 13.51%,模型最终的错误率达 22.21%;算法改进后的声
学模型可以有效地提升泛化性能。
关键词:深度学习;语音识别;声学模型;SE-MCNN-CTC
中图法分类号: TN912.34 文献标识码: A 文章编号: 1000-310X(2020)02-0223-08
DOI: 10.11684/j.issn.1000-310X.2020.02.008
Towards end-to-end speech recognition for Chinese mandarin using
SE-MCNN-CTC
ZHANG Wei 1 ZHAI Minghao 1 HUANG Zilong 1 LI Wei 2 CAO Yi 1
(1 School of Mechanical Engineering, Jiangnan University, Wuxi 214122, China)
(2 Suzhou Institute of Industrial Technology, Suzhou 215104, China)
Abstract: In order to solve the problems of high prediction error rate and poor generalization performance with
traditional convolutional neural network in Chinese speech recognition, different convolutional layers, pooling
layers and fully connected layers on DCNN-CTC are analyzed in this paper. Based on the above model, two
kinds of acoustic models referred as MCNN-CTC and SE-MCNN-CTC are proposed, respectively. With the
combination of the advantages of MCNN and SENet in the latter model, the deep information transmission
is reinforced, and the gradient problems can be effectively avoided simultaneously, the extracted feature maps
can be adaptively recalibrated. Compared with DCNN-CTC, the research results show that SE-MCNN-CTC
not only yields a 13.51% relative PER reduction, and the final PER is 22.21%, but also the generalization
performance of the improved acoustic model can be improved effectively.
Keywords: Deep learning; Automatic speech recognition; Acoustic model; SE-MCNN-CTC
2019-07-02 收稿; 2019-11-28 定稿
国家自然科学基金项目 (51375209), 江苏省 “六大人才高峰” 计划项目 (ZBZZ-012), 江苏省研究生创新计划项目 (KYCX18_0630,
∗
KYCX18_1846), 高等学校学科创新引智计划项目 (B18027)
作者简介: 张威 (1994– ), 男, 江苏宿迁人, 硕士研究生, 研究方向: 语音识别。
† 通信作者 E-mail: caoyi@jiangnan.edu.cn