Page 52 - 《应用声学》2022年第3期
P. 52

374                                                                                  2022 年 5 月


                                                               并不能提高网络的性能,而经过对辅助分支的结构
             0 引言
                                                               进行设计和选择恰当的引入中间层位置可以有效
                 声场景是指人们的日常环境和周围发生的各                           提高网络性能。所以本文采用协同学习来对网络进
             种物理事件所产生的声音。如,繁忙的街道上产生                            行改进。
             的嘈杂声和汽车鸣笛声,以及各种施工工地上产生                                本文提出了一种基于协同学习的时频卷积神
             的机器轰鸣声等。而利用计算机来自动提取这些声                            经网络模型 (TSCNN-CL),能够在保持推理计算量
             场景并对其进行分类具有重要的应用价值,如,场景                           不变的前提下,有效提高网络的声场景分类性能。
             声频监控    [1] 、设计助听器     [2] 、构建智能房间     [3]  和制    本文的主要贡献包括:(1) 提出了在网络靠前的中
             造智能汽车等。                                           间层上附加辅助监管分支,这些辅助监管分支可
                 目前,对真实环境中的声场景即声事件进行精                          以起到一个鉴别中间层提取特征图的质量的作用。
             准的自动分类,还存在较大的困难。因为在真实的                            (2) 设计了一种同构分支结构,该结构可以提高主
             声场景中,通常会同时出现多种声事件,这导致某                            干网络的声场景分类性能。(3) 设计了一种基于KL
             类声事件会受到其他背景声的干扰,从而使机器自                            散度的协同损失函数,在主干网络与辅助监管分支
             动识别变得困难。因此,声场景分类具有重要的研                            之间实现了成对知识交流,从而起到了正则化的作
             究价值。近些年随着卷积神经网络 (Convolutional                    用,提高了网络的鲁棒性。(4) 采用了一种基于协
             neural network, CNN) 的发展,出现了许多基于                  同学习的测试策略,在测试时将辅助监管分支屏蔽,
             CNN 的声场景分类方法,其中时频卷积神经网络                           保持推理量不变,使模型便于工业部署中的实际

             (Temporal-spectral convolutional neural network,  应用。本文将所提出的模型在 ESC-50、ESC-10 和
             TS-CNN)提出了时频注意力模块             [4] ,是目前声场景         UrbanSound8k 三个常用声音分类数据集上进行了
             分类效果最好的网络之一,但是由于其结构复杂且                            实验验证,实验结果表明所提出的TSCNN-CL模型

             层数较多,导致其运算效率较低,推理开销大。为了                           的平均分类准确率分别为 84.6%、93.5% 和 84.5%,
             提高性能,当前网络都是朝着更重、更复杂的方向                            相比于在 TS-CNN 模型上的实验结果分别提升了
             发展,但是大型网络对搭载设备要求高,且运算速度                           1.2%、1.5%和1.0%。
             慢,不利于实际应用。因此如何能够在不增加推理
             计算量的情况下提高网络的声场景分类能力,成为                            1 声场景的特征提取
             一大难题。
                 在不提高网络参数量的前提下,已有的提高深                              由于所需识别的声事件常常被背景噪声所掩
             度卷积神经网络性能的方法包括协同学习 (Collab-                       盖,因此准确地提取其特征是声场景分类的关键。
             orative learning)  [5] 、多任务学习 [6]  和知识蒸馏    [7]   目前常用声音特征提取方法有短时傅里叶变换
             等。其中,协同学习是在网络的中间层连接额外的                            (Short-time Fourier transform, STFT)、小波谱图
             分类器对中间层进行直接监督。多任务学习是把多                            和 Mel 谱图。其中,STFT 的方法是采用一个窗口
             个相关任务放在一起学习,通过设计多个损失函数                            函数,将声信号分割成许多小的时间间隔,然后对
             同时学习多个任务。而知识蒸馏是将已经训练好的                            每一个时间间隔做傅里叶变换,以确定该时间间
             大型教师网络中包含的知识,蒸馏提取到小型的学                            隔的频率;小波谱图是通过对声信号进行多尺度分
             生网络。2015 年,Hinton等      [7]  提出了知识蒸馏的方            解,将声信号分解到不同尺度上进行表示                    [9] ,从而
             法,成功实现了网络与网络之间的知识转移,但是                            得到声信号的时频表达;而 Mel 谱图是基于人类听
             知识蒸馏方法存在多网络训练,且设计复杂的缺点。                           觉系统对不同频率尺度的感知,在 STFT 基础上进
             2016年,Søgaard 等  [8]  证明了多任务学习的性能取                一步提取具有不同频率成分的特征信息,与 STFT
             决于多个相关任务的相似性,而在声场景分类中难                            和小波变换相比,它提供更集中的声音频谱表示。
             以找到合适的相似任务。2018年,Song等               [5]  对协同     由于这些时频表达方法得到的频谱图可以看成一
             学习中辅助分支的设计和不同引入中间层位置的                             幅图像,因此也可以采用图像处理的方法对其特
             选择进行了研究,研究证明简单的添加辅助分类器                            征进行进一步描述,常用的方法如局部二进制模
   47   48   49   50   51   52   53   54   55   56   57