Page 52 - 《应用声学》2022年第3期

P. 52

374 2022 年 5 月

并不能提高网络的性能，而经过对辅助分支的结构
0 引言
进行设计和选择恰当的引入中间层位置可以有效
声场景是指人们的日常环境和周围发生的各提高网络性能。所以本文采用协同学习来对网络进
种物理事件所产生的声音。如，繁忙的街道上产生行改进。
的嘈杂声和汽车鸣笛声，以及各种施工工地上产生本文提出了一种基于协同学习的时频卷积神
的机器轰鸣声等。而利用计算机来自动提取这些声经网络模型 (TSCNN-CL)，能够在保持推理计算量
场景并对其进行分类具有重要的应用价值，如，场景不变的前提下，有效提高网络的声场景分类性能。
声频监控 [1] 、设计助听器 [2] 、构建智能房间 [3] 和制本文的主要贡献包括：(1) 提出了在网络靠前的中
造智能汽车等。间层上附加辅助监管分支，这些辅助监管分支可
目前，对真实环境中的声场景即声事件进行精以起到一个鉴别中间层提取特征图的质量的作用。
准的自动分类，还存在较大的困难。因为在真实的 (2) 设计了一种同构分支结构，该结构可以提高主
声场景中，通常会同时出现多种声事件，这导致某干网络的声场景分类性能。(3) 设计了一种基于KL
类声事件会受到其他背景声的干扰，从而使机器自散度的协同损失函数，在主干网络与辅助监管分支
动识别变得困难。因此，声场景分类具有重要的研之间实现了成对知识交流，从而起到了正则化的作
究价值。近些年随着卷积神经网络 (Convolutional 用，提高了网络的鲁棒性。(4) 采用了一种基于协
neural network, CNN) 的发展，出现了许多基于同学习的测试策略，在测试时将辅助监管分支屏蔽，
CNN 的声场景分类方法，其中时频卷积神经网络保持推理量不变，使模型便于工业部署中的实际

(Temporal-spectral convolutional neural network, 应用。本文将所提出的模型在 ESC-50、ESC-10 和
TS-CNN)提出了时频注意力模块 [4] ，是目前声场景 UrbanSound8k 三个常用声音分类数据集上进行了
分类效果最好的网络之一，但是由于其结构复杂且实验验证，实验结果表明所提出的TSCNN-CL模型

层数较多，导致其运算效率较低，推理开销大。为了的平均分类准确率分别为 84.6%、93.5% 和 84.5%，
提高性能，当前网络都是朝着更重、更复杂的方向相比于在 TS-CNN 模型上的实验结果分别提升了
发展，但是大型网络对搭载设备要求高，且运算速度 1.2%、1.5%和1.0%。
慢，不利于实际应用。因此如何能够在不增加推理
计算量的情况下提高网络的声场景分类能力，成为 1 声场景的特征提取
一大难题。
在不提高网络参数量的前提下，已有的提高深由于所需识别的声事件常常被背景噪声所掩
度卷积神经网络性能的方法包括协同学习 (Collab- 盖，因此准确地提取其特征是声场景分类的关键。
orative learning) [5] 、多任务学习 [6] 和知识蒸馏 [7] 目前常用声音特征提取方法有短时傅里叶变换
等。其中，协同学习是在网络的中间层连接额外的 (Short-time Fourier transform, STFT)、小波谱图
分类器对中间层进行直接监督。多任务学习是把多和 Mel 谱图。其中，STFT 的方法是采用一个窗口
个相关任务放在一起学习，通过设计多个损失函数函数，将声信号分割成许多小的时间间隔，然后对
同时学习多个任务。而知识蒸馏是将已经训练好的每一个时间间隔做傅里叶变换，以确定该时间间
大型教师网络中包含的知识，蒸馏提取到小型的学隔的频率；小波谱图是通过对声信号进行多尺度分
生网络。2015 年，Hinton等 [7] 提出了知识蒸馏的方解，将声信号分解到不同尺度上进行表示 [9] ，从而
法，成功实现了网络与网络之间的知识转移，但是得到声信号的时频表达；而 Mel 谱图是基于人类听
知识蒸馏方法存在多网络训练，且设计复杂的缺点。觉系统对不同频率尺度的感知，在 STFT 基础上进
2016年，Søgaard 等 [8] 证明了多任务学习的性能取一步提取具有不同频率成分的特征信息，与 STFT
决于多个相关任务的相似性，而在声场景分类中难和小波变换相比，它提供更集中的声音频谱表示。
以找到合适的相似任务。2018年，Song等 [5] 对协同由于这些时频表达方法得到的频谱图可以看成一
学习中辅助分支的设计和不同引入中间层位置的幅图像，因此也可以采用图像处理的方法对其特
选择进行了研究，研究证明简单的添加辅助分类器征进行进一步描述，常用的方法如局部二进制模

47 48 49 50 51 52 53 54 55 56 57