Page 54 - 《应用声学》2022年第3期

P. 54

376 2022 年 5 月

TS-CNN 可充分利用声音固有的频率和时间 argmin L 1 (W 1 , D) + λR(W 1 ), (1)
特征，能够有效降低噪声的干扰，但由于 TS-CNN W 1
网络层数较深，且在训练时采用非凸优化算法，导致其中，L 1 为默认损失，R 为正则化项，λ 是正则化系
网络在训练的时候，容易陷入局部最优值，并且伴随数。在公式(1)中，L 1 由式(2)计算：
着梯度消失和梯度爆炸的现象，因此达不到最优效 N
1 ∑
果。为了解决这一问题，在不增加推理量的前提下 L 1 (W 1 , D) = H (y i , f (W 1 , x i )) , (2)
N
提高性能，本文在 TS-CNN 的基础上引入了协同学 i=1
习，提出了TSCNN-CL网络。其中，H( ) 是交叉熵损失函数，定义为
K
3 协同时频卷积神经网络 H (y i , f (W 1 , x i )) = − ∑ y lg f (W 1 , x i ) . (3)
k
k
i
k=1
协同时频卷积神经网络 (TSCNN-CL) 是在
对于 TSCNN-CL，因为分别在 B 位、C 位引出
TSCNN 基础上引入了协同学习的方法，通过增
了协同分支，所以模型的优化目标为
加两个协同分支以使得网络训练更加充分。增加
CNN 的深度虽然可以一定程度上提高网络的表征 argmin L 1 (W 1 , D) + L B (W B , D) + L C (W C , D)
W 1 ,W B ,W C
能力，但随着深度加深，会逐渐出现神经网络难以
+ L AUX + λR(W 1 ), (4)
训练的情况，其中就包括像梯度消失和梯度爆炸等
现象。为此，TSCNN-CL 在神经网络的中间层引入其中，W B 、W C 分别为分支 B、C的输出向量，L AUX
辅助的分支分类器，辅助分支分类器能够判别中间为辅助损失函数。L AUX 可表示为
层提取的特征图质量的好坏，并且为中间层提供直
接的监督，而不是 CNN 通常采用的仅在输出层提 L AUX = KL(W 1 | W B ) + KL(W B | W 1 )
供监督，然后将此监督传播回早期层的标准方法。 + KL(W 1 | W C ) + KL(W C | W 1 )
并且为每个分支设计了基于 KL 散度的辅助损失函 +KL(W B | W C )+KL(W C | W B ). (5)
数，使分支和主干之间进行信息交互，提高了网络的

泛化能力。
3.1 网络结构
TSCNN-CL 的模型结构如图 3 所示。具体地， Input
先将 TF 模块 1、TF 模块 2 和 TF 模块 3 的输出分别 TFblock1
标记为C、B、A位，然后从C位和B位分别引出两条 C
同构分支，在分支之间进行 KL 散度计算作为协同 TFblock2
TFblock2
损失函数。其中，同构分支的网络结构与主干网络 B
TFblock3
的网络结构完全相同。 TFblock3
TFblock3 A
3.2 协同损失函数 TFblock4
TFblock4
TFblock4
在 TSCNN-CL 中，两个协同分支采用交叉熵
Лᤌଌࡏ(FC Layer)
作为损失函数。而为了实现不同分类器之间的知识 Лᤌଌࡏ(FC Layer) Лᤌଌࡏ(FC Layer)
协同，在不同分支之间设计了一种基于 KL 散度的 SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨
协同损失函数，使得连接到主干网络的所有分支之
间可以进行信息交流，进一步优化网络性能。
设 D = {(x i , y i |1 6 i 6 N} 为包含 N 个样本 ᄱࠫ྅
KL Divergence
的数据集，其中x i 是第i个训练样本，y i 是对应的真
实标签。此外，设f(W , x i )为CNN的输出向量。对
图 3 TSCNN-CL 模型结构图
于只在网络的最后一层增加监督的标准训练方案，
Fig. 3 TSCNN-CL model framework
优化目标可表示为

49 50 51 52 53 54 55 56 57 58 59