Page 69 - 《应用声学》2020年第2期

P. 69

第 39 卷第 2 期张威等： SE-MCNN-CTC 的中文语音识别声学模型 227

ᤌଌ௑ऀѬዝ 件运行环境为 64 位 Ubuntu16.04 操作系统下搭建
的 Keras+Tensorﬂow 深度学习框架。
Лᤌଌࡏ
3.3 数据预处理
Лᤌଌࡏ
该文以帧长 25 ms、帧移为 10 ms 提取语音原
Concat()
始信息。其中，Thchs30数据集提取语谱图(spectro-
෉ӑࡏ ෉ӑࡏ ෉ӑࡏ
gram) 为输入特征，共 200 维；ST-CMDS 数据集以
SEവڱ SEവڱ SEവڱ
FBank(Filter Bank) 作为语音的输入特征，加上其
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ [28]
一阶、二阶差分统计量，前后拼接一帧，共 360
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ
维。在训练阶段选取适应性动量估计算法 (Adap-
tive moment estimation, Adam) 作为模型的优化
෉ӑࡏ ෉ӑࡏ ෉ӑࡏ
器，该算法不仅能够对不同参数计算适应性学习
SEവڱ SEവڱ SEവڱ
率，而且能够加速网络收敛速度 [29] ；在每层卷积
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ
层之后添加批量归一化(Batch normalization, BN)
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ
对网络中的权重进行自适应调整，以此提高网络的
训练速度和泛化能力 [30] ；在池化层之后使用丢弃法
ឦᮃྲढ़
(Dropout) [31] 以此有效地降低网络的过拟合风险，
图 5 SE-MCNN-CTC 声学模型结构图 −3
初始学习率设置为 1 × 10 ；在微调阶段，以随机梯
Fig. 5 Structure diagram of acoustic model for
度下降算法 (Stochastic gradient descent, SGD) 作
SE-MCNN-CTC
为模型的优化器，通过设置更小的学习率使得网络
值得指出的是，SENet模型与MCNN模型结合在后期优化更为稳定，微调学习率设置为1 × 10 −5 。
主要有三种优点：(1) 使得网络具有更强的非线性，表1 是对图 2、图4 所示的声学模型参数进行配
可以更好地拟合数据；(2) 通过巧妙地设置全连接置，其中 [3×3 × 32k] × m 表示使用 3×3 卷积核初
层数中的维度变换率，在提升模型的拟合能力的同始数目为 32 个，每经过一个池化层，卷积核数目成
时，极大地减小了 SENet 模型中全连接层神经元数倍增加；对于偶数层卷积层，则 m = 2，奇数层则
目；(3) 通过对特征图的概率重标定，最大程度地利 m = 3；512-1422 表示最后全连接层神经元数目依
用特征图的信息，减小对冗余特征的依赖 [26] 。次为512、1422。
MCNN网络由于宽度增加而造成参数繁多，为
3 实验结果及分析此，将 MCNN 每层的卷积核数目相较于 DCNN 减

3.1 实验数据小一半。最终实验表明：上述参数设置策略不但没
有造成参数繁多难以训练现象，而且使得该配置的
本文使用的数据集为清华大学开源的约 30 h
网络在参数减小的情况下，MCNN 模型的泛化性均
数据集 (Thchs30) 和北京冲浪科技公司开源的约
无影响，所设计的声学模型如表1所示。
150 h 中文语音数据集 (ST-CMDS)。其中 Thchs30
数据集中训练、验证集以及测试集分别为 10000 表 1 卷积神经网络配置参数信息
句、893 句以及 2495 句；ST-CMDS 语音数据集共 Table 1 Convolutional neural network
102600句，在训练阶段采用文献 [27] 对数据进行划 conﬁguration parameter information
分；两种数据集训练集、验证集以及测试集之间均
模型结构 DCNN-CTC MCNN-CTC SE-MCNN-CTC
无交叠。
卷积层 [3×3×32k] ×m [3×3 × 16k]×m [3×3 × 16k]×m
3.2 实验平台 SENet 模型 — — SE(16k/γ, 16k)
池化层 2×2 最大池化
实验所用硬件配置为 I7-8700K 处理器，32 GB
全连接层 512-1422 512-1024-1422
运行内存，GPU 显卡为 NVIDIA GTX-1080Ti；软

64 65 66 67 68 69 70 71 72 73 74