Page 67 - 《应用声学》2020年第2期
P. 67
第 39 卷 第 2 期 张威等: SE-MCNN-CTC 的中文语音识别声学模型 225
Input Conv1_1 Conv1_2 Pool1 Convx_n Poolx FC1 FC2 Output
s
p
f
t
m
a
x
图 1 卷积神经网络结构图
Fig. 1 The structure of convolutional neural networks
1.2 连接时序分类 由式 (3),依次得到 T 帧中对应的建模单元的
′
CTC 是由 Graves 等 [10−11] 提出的一种时序分 概率分布:
′
T
类方法。CTC 与传统的基于 DNN-HMM 声学模型 ∏
P (π|X) = P (π t |t, X), (4)
不同,其不需要在时间维度上帧级别对齐标签,输入
t=1
语音特征即可预测结果,通过训练降低CTC损失值 式 (4) 中,π 为生成预测 T 序列的路径,通过累积得
′
进而降低预测值与真实标签差异,该过程极大地简 到对应路径 π 的概率;由于 π 与 y 为多对一关系,ψ
化了声学模型的训练流程。必须指出的是,CTC 额 为路径与预测值转换函数,由式 (5) 得到路径对应
外引入 “blank” 标签对静音、字间重叠等建模,简化 预测值序列的概率:
建模过程。因此 CTC 尤其适合序列建模,其模型结 ∑
P (y|X) = P (π|X). (5)
构如图2所示。
π∈ψ −1 (y)
式 (6) 通过给定真实标签 y ,得到最终 CTC 损
∗
ᤌ
ឦ Ԅ Ԅ Л ଌ 失函数,通过训练不断降低CTC损失值使得预测结
ᮃ ሥ ӑ ሥ ӑ ᤌ 果逐步朝着真实标签逼近:
ྲ ࡏ ࡏ SSS ࡏ ࡏ SSS ଌ ऀ
ࡏ Ѭ
ዝ CTC (X) = − lg (P (y |X)) . (6)
∗
图 2 DCNN-CTC 声学模型结构图
目前 CTC 解码主要有三种:最大路径解码、前
Fig. 2 The structure of DCNN-CTC
缀束解码以及束解码 [10] 。最大路径解码旨在寻找
每个概率最大的前 z(z 6 m,m 为建模单元个数) 条
设给定序列 X = (x 1 , x 2 , · · · , x T ) 表示输入 T
路径对应的标签,无需字典、语言模型等先验知识,
帧语音特征,经过神经网络输出的每帧的预测
解码过程极其简单,式 (7)、式 (8) 代表其计算过程,
为 Y = (y 1 , y 2 , · · · , y T ),由于 CNN 中池化函数
′
y 为最终的解码结果:
′
的存在,使得序列的长度成倍的变短 T = nT ,
′
∗
n 为经过池化计算后特征图减小的倍数,其中 π = Arg max (P (π|X)) , z 6 m, (7)
π
z
k
y i = (y , y , · · · , y , · · · , y ),m 为建模单元总数,
1
m
2
I i i i
′
∗
y ≈ ψ(π ). (8)
k
y 为第 i 帧的第 k 个建模单元位置。则给定输入序
i
列 X,t 时刻第 k 个建模单元由神经网络 softmax 函 2 多路卷积神经网络
数输出的后验概率为
近些年,卷积神经网络大多在深度方向对网络
( )
exp y t k
P (k|t, X) = ∑ ( ′ ). (3) 进行优化,“串联式” 连接所有层,通过提取更高维、
exp y k
k ′ t 抽象的特征以达到更佳的分类性能 [16−18] 。然而,对