Page 54 - 《应用声学》2022年第3期
P. 54

376                                                                                  2022 年 5 月


                 TS-CNN 可充分利用声音固有的频率和时间                                 argmin L 1 (W 1 , D) + λR(W 1 ),  (1)
             特征,能够有效降低噪声的干扰,但由于 TS-CNN                                    W 1
             网络层数较深,且在训练时采用非凸优化算法,导致                           其中,L 1 为默认损失,R 为正则化项,λ 是正则化系
             网络在训练的时候,容易陷入局部最优值,并且伴随                           数。在公式(1)中,L 1 由式(2)计算:
             着梯度消失和梯度爆炸的现象,因此达不到最优效                                                N
                                                                                1  ∑
             果。为了解决这一问题,在不增加推理量的前提下                                L 1 (W 1 , D) =    H (y i , f (W 1 , x i )) ,  (2)
                                                                                N
             提高性能,本文在 TS-CNN 的基础上引入了协同学                                           i=1
             习,提出了TSCNN-CL网络。                                  其中,H( ) 是交叉熵损失函数,定义为
                                                                                      K
             3 协同时频卷积神经网络                                        H (y i , f (W 1 , x i )) = −  ∑  y lg f (W 1 , x i ) . (3)
                                                                                              k
                                                                                          k
                                                                                          i
                                                                                     k=1
                 协 同 时 频 卷 积 神 经 网 络 (TSCNN-CL) 是 在
                                                                   对于 TSCNN-CL,因为分别在 B 位、C 位引出
             TSCNN 基础上引入了协同学习的方法,通过增
                                                               了协同分支,所以模型的优化目标为
             加两个协同分支以使得网络训练更加充分。增加
             CNN 的深度虽然可以一定程度上提高网络的表征                             argmin L 1 (W 1 , D) + L B (W B , D) + L C (W C , D)
                                                               W 1 ,W B ,W C
             能力,但随着深度加深,会逐渐出现神经网络难以
                                                                         + L AUX + λR(W 1 ),              (4)
             训练的情况,其中就包括像梯度消失和梯度爆炸等
             现象。为此,TSCNN-CL 在神经网络的中间层引入                        其中,W B 、W C 分别为分支 B、C的输出向量,L AUX
             辅助的分支分类器,辅助分支分类器能够判别中间                            为辅助损失函数。L AUX 可表示为
             层提取的特征图质量的好坏,并且为中间层提供直
             接的监督,而不是 CNN 通常采用的仅在输出层提                            L AUX = KL(W 1 | W B ) + KL(W B | W 1 )
             供监督,然后将此监督传播回早期层的标准方法。                                      + KL(W 1 | W C ) + KL(W C | W 1 )
             并且为每个分支设计了基于 KL 散度的辅助损失函                                    +KL(W B | W C )+KL(W C | W B ).  (5)
             数,使分支和主干之间进行信息交互,提高了网络的

             泛化能力。
             3.1 网络结构
                 TSCNN-CL 的模型结构如图 3 所示。具体地,                                         Input
             先将 TF 模块 1、TF 模块 2 和 TF 模块 3 的输出分别                                    TFblock1
             标记为C、B、A位,然后从C位和B位分别引出两条                                              C
             同构分支,在分支之间进行 KL 散度计算作为协同                                              TFblock2
                                                                                                   TFblock2
             损失函数。其中,同构分支的网络结构与主干网络                                                     B
                                                                                   TFblock3
             的网络结构完全相同。                                                                            TFblock3
                                                                   TFblock3        A
             3.2 协同损失函数                                                            TFblock4
                                                                                                   TFblock4
                                                                   TFblock4
                 在 TSCNN-CL 中,两个协同分支采用交叉熵
                                                                                Лᤌଌࡏ(FC Layer)
             作为损失函数。而为了实现不同分类器之间的知识                             Лᤌଌࡏ(FC Layer)                  Лᤌଌࡏ(FC Layer)
             协同,在不同分支之间设计了一种基于 KL 散度的                            SoftmaxѬዝ٨      SoftmaxѬዝ٨      SoftmaxѬዝ٨
             协同损失函数,使得连接到主干网络的所有分支之
             间可以进行信息交流,进一步优化网络性能。
                 设 D = {(x i , y i |1 6 i 6 N} 为包含 N 个样本                                           ᄱࠫ྅
                                                                                                KL Divergence
             的数据集,其中x i 是第i个训练样本,y i 是对应的真
             实标签。此外,设f(W , x i )为CNN的输出向量。对
                                                                          图 3  TSCNN-CL 模型结构图
             于只在网络的最后一层增加监督的标准训练方案,
                                                                       Fig. 3 TSCNN-CL model framework
             优化目标可表示为
   49   50   51   52   53   54   55   56   57   58   59