Page 54 - 《应用声学》2022年第3期
P. 54
376 2022 年 5 月
TS-CNN 可充分利用声音固有的频率和时间 argmin L 1 (W 1 , D) + λR(W 1 ), (1)
特征,能够有效降低噪声的干扰,但由于 TS-CNN W 1
网络层数较深,且在训练时采用非凸优化算法,导致 其中,L 1 为默认损失,R 为正则化项,λ 是正则化系
网络在训练的时候,容易陷入局部最优值,并且伴随 数。在公式(1)中,L 1 由式(2)计算:
着梯度消失和梯度爆炸的现象,因此达不到最优效 N
1 ∑
果。为了解决这一问题,在不增加推理量的前提下 L 1 (W 1 , D) = H (y i , f (W 1 , x i )) , (2)
N
提高性能,本文在 TS-CNN 的基础上引入了协同学 i=1
习,提出了TSCNN-CL网络。 其中,H( ) 是交叉熵损失函数,定义为
K
3 协同时频卷积神经网络 H (y i , f (W 1 , x i )) = − ∑ y lg f (W 1 , x i ) . (3)
k
k
i
k=1
协 同 时 频 卷 积 神 经 网 络 (TSCNN-CL) 是 在
对于 TSCNN-CL,因为分别在 B 位、C 位引出
TSCNN 基础上引入了协同学习的方法,通过增
了协同分支,所以模型的优化目标为
加两个协同分支以使得网络训练更加充分。增加
CNN 的深度虽然可以一定程度上提高网络的表征 argmin L 1 (W 1 , D) + L B (W B , D) + L C (W C , D)
W 1 ,W B ,W C
能力,但随着深度加深,会逐渐出现神经网络难以
+ L AUX + λR(W 1 ), (4)
训练的情况,其中就包括像梯度消失和梯度爆炸等
现象。为此,TSCNN-CL 在神经网络的中间层引入 其中,W B 、W C 分别为分支 B、C的输出向量,L AUX
辅助的分支分类器,辅助分支分类器能够判别中间 为辅助损失函数。L AUX 可表示为
层提取的特征图质量的好坏,并且为中间层提供直
接的监督,而不是 CNN 通常采用的仅在输出层提 L AUX = KL(W 1 | W B ) + KL(W B | W 1 )
供监督,然后将此监督传播回早期层的标准方法。 + KL(W 1 | W C ) + KL(W C | W 1 )
并且为每个分支设计了基于 KL 散度的辅助损失函 +KL(W B | W C )+KL(W C | W B ). (5)
数,使分支和主干之间进行信息交互,提高了网络的
泛化能力。
3.1 网络结构
TSCNN-CL 的模型结构如图 3 所示。具体地, Input
先将 TF 模块 1、TF 模块 2 和 TF 模块 3 的输出分别 TFblock1
标记为C、B、A位,然后从C位和B位分别引出两条 C
同构分支,在分支之间进行 KL 散度计算作为协同 TFblock2
TFblock2
损失函数。其中,同构分支的网络结构与主干网络 B
TFblock3
的网络结构完全相同。 TFblock3
TFblock3 A
3.2 协同损失函数 TFblock4
TFblock4
TFblock4
在 TSCNN-CL 中,两个协同分支采用交叉熵
Лᤌଌࡏ(FC Layer)
作为损失函数。而为了实现不同分类器之间的知识 Лᤌଌࡏ(FC Layer) Лᤌଌࡏ(FC Layer)
协同,在不同分支之间设计了一种基于 KL 散度的 SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨
协同损失函数,使得连接到主干网络的所有分支之
间可以进行信息交流,进一步优化网络性能。
设 D = {(x i , y i |1 6 i 6 N} 为包含 N 个样本 ᄱࠫ྅
KL Divergence
的数据集,其中x i 是第i个训练样本,y i 是对应的真
实标签。此外,设f(W , x i )为CNN的输出向量。对
图 3 TSCNN-CL 模型结构图
于只在网络的最后一层增加监督的标准训练方案,
Fig. 3 TSCNN-CL model framework
优化目标可表示为