Page 114 - 201806
P. 114
944 2018 年 11 月
∂C
w → w − η
4 实验结果与分析
∂w
∂C 0
= w − η − ηλw
为了验证所提算法的有效性,本文分别基于
∂w
(11)
∂C 0 TIMIT和THCHS30数据库进行实验。由于连续语
= (1 − ηλ)w − η ,
∂w 音识别最终识别出来的一般都是按照特定顺序排
∂C ∂C 0
列的一串词,因此实验中采用的评测标准是词错率
b → b − η = b − η .
∂b ∂b (Word error rate, WER),WER值的大小与系统的
式 (2) 中的参数需由实验确定,本文选择 a = 0.03,
整体性能优劣成反比。选用 n-gram 的统计语言模
b = 0.03,λ = 0.0004。
型,即当前词出现的概率只与其前面的n个词有关。
3.2 改进的log激活函数
4.1 基于TIMIT数据库的实验
由于线性激活函数的复杂性有限,从数据中学
习复杂特征的能力较弱,因此在 CNN 中一般均采 TIMIT 是常用的英文语音库,将数据库中的
用非线性激活函数,如 sigmoid 函数、tanh 函数,表 462 个说话人的语音作为训练集,将 40 个说话人的
达式分别如式(12)和式(13)所示: 语音作为测试集,两个集之间无重叠。选用 2-gram
1 的统计语言模型。在特征提取部分,广泛使用的
sigmoid (x) = , (12)
1 + e −x 声学特征是梅尔频率倒谱系数 (Mel-frequency cep-
1 − e −2x stral coefficients, MFCC),但是在提取 MFCC对梅
tanh (x) = . (13)
1 + e −2x
尔能量做离散余弦变换时会使能量值发生偏置,不
sigmoid 函数和 tanh 函数均是饱和的,梯度在
利于 CNN 对特征做局部提取,因此实验选用帧与
向底层传递时很容易消失,而且 tanh函数关于原点
帧之间具有较强关联性的 FBANK 声学特征,每帧
对称,这与生物神经元的激活特征是不相符的。根
语音数据提取的 FBANK 特征维度为 36维,同时对
据大脑神经元激活的仿真模型,提出了一种新的log
其做一阶和二阶差分扩展。对每帧声学特征做倒谱
激活函数来优化 CNN,使得语音识别的词错率得到
均值和归一化。实验中,沿时间轴左右各展开 5 帧,
进一步的降低,表达式如式(14)所示:
构成上下文相关的11帧串联长时特征。
ln(x + 1), x > 0, 本实验所训练的二维 CNN 的隐含层包括一层
f(x) = (14)
0, x 6 0.
卷积层、一层聚合层和一层全连接层,输出采用
新型log激活模型的函数图像如图3所示。 softmax 层。卷积核的数目为 256,卷积核的大小为
9 × 9,步进为1 × 1;聚合层采用最大聚合算法,4 个
f↼x↽
⊲
神经元中选择最大的一个节点值作为输出,步长为
1 × 4;全连接层的神经元数为1024。CNN的输出层
⊲
输出的是语音帧属于某个类别的后验概率,在语音
֓ ֓ 识别中类指的是音素,实验中语音数据的音素类别
֓⊲ 数为144(48个音素,每个音素三个状态)。
表 1 给出了 TIMIT 测试集上不同模型之间的
֓⊲
对比实验结果:Fisher模型较一般模型,词错率降低
图 3 新型 log 激活函数 了1.1%,语音识别性能有较好的提升;在使用 L2 正
Fig. 3 New log activation function 则化进行改进以后,词错率有略微下降;而在进一步
当神经元输入特征值小于零时,新型 log 激活 使用 log 激活函数进行优化以后,词错率又有略微
函数将输出值强制为零,符合生物学神经元的稀疏 下降。总体来说,使用优化 CNN算法的识别正确率
激活特性,缓解过拟合问题的发生;输入特征值大于 比传统CNN提高了1.6%。由此可知,本文所提出的
零时,输出值随输入值呈非线性递增变化,能有效缓 CNN 改进算法在 TIMIT 语音数据库中能较好地提
解梯度消失的问题。 升语音识别的准确率。