Page 68 - 《应用声学》2020年第2期
P. 68
226 2020 年 3 月
于更宽 CNN研究却相对匮乏。因此,本文在上述研 的卷积核提取具有代表性的语音特征,加强模型的
究的基础上对 DCNN宽度上进行深入研究,进而提 非线性化程度,从而使得网络具有更优越的拟合性
出 MCNN 网络结构,即通过 “并联” 方式将网络进 能 [15,24] ,最后对提取的高维特征进行拼接,得到全
行融合构建既深又宽的网络,最终结合CTC目标函 部的特征序列:
数构建MCNN-CTC声学模型,其结构如图3所示。 ( )
l
l
l
H = Concat h , h , h l k , (9)
j
i
ᤌଌऀѬዝ
式(9)中,h 、h 、h 分别代表3条不同支路的第i、j、
l
l
l
Лᤌଌࡏ i j k
eee k 张特征图,Concat(·)函数表示拼接特征图得到第l
Лᤌଌࡏ 层的总特征图H 。
l
Concat()
2.1 SE模块
ӑࡏ ӑࡏ ӑࡏ
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ 图 4 中,X i 表示对应层的输入特征矩阵,X o
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ 表示经过 SENet 模型输出的特征矩阵。H、W、C
分别表示特征矩阵的三维信息;F sq (·)、F ex (·,W i )、
ӑࡏ ӑࡏ ӑࡏ
F scale (·, )分别代表SENet内部变换,计算公式如下:
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ
H W
Ԅሥࡏ Ԅሥࡏ Ԅሥࡏ 1 ∑ ∑
z c = F sq (u c ) = u c (i, j), (10)
H × W
ឦᮃྲढ़ i=1 j=1
s = F ex (z, W ) = σ (W 2 f (W 1 z)) , (11)
图 3 多路卷积神经网络语音识别声学模型结构图
X o = F scale (u c , s c ) = s c · u c , (12)
Fig. 3 Acoustic model structure diagram of
speech recognition based on multipaths convolu-
其中,u c 表示经过卷积变换后第c个特征;z c 表示经
tional neural network
过全局平均池化变换后的第 c 个特征映射;σ(·) 表
传统的深度卷积神经网络仅在单条分支上提 示 sigmoid 激活函数;s c 表示经过全连接之后相应
取语音序列中代表性特征 [24] ,由于语音序列的多样 特征图对应的权值;W 1 、W 2 分别代表两层全连接
性,造成 DCNN 在提取特征时遗漏重要特征,从而 层的权值矩阵,其中 W 1 ∈ R c/γ×c 、W 2 ∈ R c×c/γ ,
降低整体的识别准确率。为解决上述问题,本文提 其中 γ 为第一层全连接层的维度变换率;通过上述
出了多路卷积神经网络,即采用 3 条不同的分支分 计算,最终自适应得到特征图对应的权重 [25] 。
别提取语音序列特征,弥补了单条分支提取特征的
不足,降低了由于特征缺乏对模型识别率的影响。 2.2 SE-MCNN模型
最终,采用反向传播 (Back propagation, BP) 算法 综合利用SENet与MCNN各自的优势,构建了
对模型中可训练参数进行调整 [15] 。 SE-MCNN-CTC 模型,使用 SENet 模型对 MCNN
MCNN 先提取语音特征,分别将其无差别的 提取的特征进行概率重标定,在合适的参数范围内
输入到 3 条不同分支的 DCNN 中,既能在深度方向 减少MCNN模型特征冗余现象。SE-MCNN模型如
提取网络的重要特征,又可在宽度方向通过不同 图5所示。
F ex↼S֒W ↽ F ex ↼S֒W ↽
⊲ ⊲
⊲ ⊲
X i F sq↼κ↽ X o
⊲ ⊲
C
C C F scale↼S֒ S↽
H H
W W
C C
图 4 SENet 模型结构图
Fig. 4 The structure of SENet