Page 91 - 201903
P. 91
第 38 卷 第 3 期 李云红等: 一种改进的 DNN-HMM 的语音识别方法 373
每层节点的采样值均由两层连接的节点共同计算。 公式 (5) 中等号左边是似然函数 p(v),右边第一项
但是 DBM 模型训练时间长度与它的层数和每层的 是整个网络自由能量总和的负值。
节点数有关。DBN模型是由四层 RBM 组成的有向 整个深度神经网络模型应用误差反向传播算
图模型,在预训练过程中,上层是输出,下层是输入。 法,让目标函数获得最优值,从而达到训练目的。针
所有层训练完毕后,由最上层开始向下进行有监督 对深度神经网络进行训练时,目标函数通常替换为
微调。 交叉熵,在实际优化阶段,使用随机梯度下降法来处
如图 1 所示,DNN-HMM 模型和改进的 DNN- 理。换言之,对于多状态分类问题中目标函数往往
HMM 模型都有 1 个输入层,4 个隐藏层,1 个输出 使用取负值的对数概率,如公式(6)所示:
层。h 1 、h 2 、h 3 、h 4 分别对应4个隐藏层,W 1 、W 2 、W 3 、 U T u
∑ ∑
W 4 、W 5 分别对应层间的连接权重。模型相同层节 F CE = − log y ut (s ut ) (6)
u=1 t=1
点不连接,不同层节点之间全部连接。DNN-HMM
其中,s ut 是 t 时刻的状态,F CE 为状态标签与预
模型输入层、h 1 、h 2 、h 3 、h 4 之间是有向图全连接的
测状态分布 y(s) 之间的交叉熵。目标函数与输入
DBN 模型。改进的 DNN-HMM 模型的输入层、h 1 、
a ut (s)间的梯度可以记为
h 2 之间是无向图全连接的 DBM 模型,h 2 、h 3 、h 4 之
∂F CE ∂ log y ut (s ut )
间是有向图全连接的 DBN 模型。固定长度的向量 = − = y ut (s) − δ ss ut (7)
∂a ut (s) ∂a ut (s)
作为模型输入,改进的 DNN-HMM 模型先由 h 1 、h 2
是克罗内克函数,满足:
公式(7)中δ ss ut
训练,h 2 作为 DBM 模型的输出层,同时也是 h 3 、h 4
的输入,输出是当前输入信息的特征表示。 1 s = s ut
δ ss ut = , (8)
RBM 是基于能量的模型,可以捕获变量的相 0 s ̸= s ut
关性。其定义为
由公式 (8),网络参数的调整方法使用反向传播
n m m n
∑ ∑ ∑ ∑ 算法。
E(v, h) = − w ij h i v j − b j v j − c i h i ,
改 进 的 DNN-HMM 模 型 与 DNN-HMM 模 型
(1)
不同的是底层使用了 DBM 模型对输入的语音信
公式 (1) 表示每一个可视节点与隐藏节点之间构成
号进行了处理。DBM 模型中每一个隐藏节点的状
的能量函数。其中,m 是可视节点的个数,n 是隐
态都由它直接连接的上下层节点共同计算决定,因
藏节点的个数,b、c 是可视层和隐藏层的偏置。由
此相比 DNN-HMM 模型可以对输入的语音信号进
于 RBM 目标函数要累加所有可视层和隐藏层节点
行更好的降维,捕捉不同语音的特征。同时,高层采
取值的能量,其计算也面临指数级的复杂度。因此,
用 DBN 模型结构避免了 DBN 模型开始训练时容
将计算能量累加转换为求解概率的问题,即得到的
易过拟合的现象,保持了良好的性能。
v, h的联合概率为
e −E(v,h) 2 Fbank特征
p(v, h) = ∑ −E(v,h) . (2)
e
v,h
在语音识别领域当中,使用对角协方差矩阵的
通过公式 (2) 简化能量函数的求解,使得求解的能
GMM,将 MFCC 作为声学特征一直是研究的常用
量值最小。由统计学的一个理论,能量低发生的概
手法。MFCC声学特征的计算过程如图2所示。
率大,因此引入自由能量函数最大化联合概率,公式
如下: ᮕܫေ
ҫቔ ʼᝈ
∑ ᮕҫ᧘ FFT
FreeEnergy(v) = −In e −E(v,h) , (3) Ѭࣝ ฉ٨ጸ
e −FreeEnergy(v) ∑ −E(v,h)
p(v) = , Z = e , (4) MFCCԠ DCT log
Z ऺԫӑ ࠫᑟ᧚
v,h
其中,Z 是归一化因子,故联合概率可以表示为 图 2 MFCC 计算流程图
Inp(v) = −FreeEnergy(v) − InZ, (5) Fig. 2 MFCC flow chart