Page 52 - 《应用声学》2022年第3期
P. 52
374 2022 年 5 月
并不能提高网络的性能,而经过对辅助分支的结构
0 引言
进行设计和选择恰当的引入中间层位置可以有效
声场景是指人们的日常环境和周围发生的各 提高网络性能。所以本文采用协同学习来对网络进
种物理事件所产生的声音。如,繁忙的街道上产生 行改进。
的嘈杂声和汽车鸣笛声,以及各种施工工地上产生 本文提出了一种基于协同学习的时频卷积神
的机器轰鸣声等。而利用计算机来自动提取这些声 经网络模型 (TSCNN-CL),能够在保持推理计算量
场景并对其进行分类具有重要的应用价值,如,场景 不变的前提下,有效提高网络的声场景分类性能。
声频监控 [1] 、设计助听器 [2] 、构建智能房间 [3] 和制 本文的主要贡献包括:(1) 提出了在网络靠前的中
造智能汽车等。 间层上附加辅助监管分支,这些辅助监管分支可
目前,对真实环境中的声场景即声事件进行精 以起到一个鉴别中间层提取特征图的质量的作用。
准的自动分类,还存在较大的困难。因为在真实的 (2) 设计了一种同构分支结构,该结构可以提高主
声场景中,通常会同时出现多种声事件,这导致某 干网络的声场景分类性能。(3) 设计了一种基于KL
类声事件会受到其他背景声的干扰,从而使机器自 散度的协同损失函数,在主干网络与辅助监管分支
动识别变得困难。因此,声场景分类具有重要的研 之间实现了成对知识交流,从而起到了正则化的作
究价值。近些年随着卷积神经网络 (Convolutional 用,提高了网络的鲁棒性。(4) 采用了一种基于协
neural network, CNN) 的发展,出现了许多基于 同学习的测试策略,在测试时将辅助监管分支屏蔽,
CNN 的声场景分类方法,其中时频卷积神经网络 保持推理量不变,使模型便于工业部署中的实际
(Temporal-spectral convolutional neural network, 应用。本文将所提出的模型在 ESC-50、ESC-10 和
TS-CNN)提出了时频注意力模块 [4] ,是目前声场景 UrbanSound8k 三个常用声音分类数据集上进行了
分类效果最好的网络之一,但是由于其结构复杂且 实验验证,实验结果表明所提出的TSCNN-CL模型
层数较多,导致其运算效率较低,推理开销大。为了 的平均分类准确率分别为 84.6%、93.5% 和 84.5%,
提高性能,当前网络都是朝着更重、更复杂的方向 相比于在 TS-CNN 模型上的实验结果分别提升了
发展,但是大型网络对搭载设备要求高,且运算速度 1.2%、1.5%和1.0%。
慢,不利于实际应用。因此如何能够在不增加推理
计算量的情况下提高网络的声场景分类能力,成为 1 声场景的特征提取
一大难题。
在不提高网络参数量的前提下,已有的提高深 由于所需识别的声事件常常被背景噪声所掩
度卷积神经网络性能的方法包括协同学习 (Collab- 盖,因此准确地提取其特征是声场景分类的关键。
orative learning) [5] 、多任务学习 [6] 和知识蒸馏 [7] 目前常用声音特征提取方法有短时傅里叶变换
等。其中,协同学习是在网络的中间层连接额外的 (Short-time Fourier transform, STFT)、小波谱图
分类器对中间层进行直接监督。多任务学习是把多 和 Mel 谱图。其中,STFT 的方法是采用一个窗口
个相关任务放在一起学习,通过设计多个损失函数 函数,将声信号分割成许多小的时间间隔,然后对
同时学习多个任务。而知识蒸馏是将已经训练好的 每一个时间间隔做傅里叶变换,以确定该时间间
大型教师网络中包含的知识,蒸馏提取到小型的学 隔的频率;小波谱图是通过对声信号进行多尺度分
生网络。2015 年,Hinton等 [7] 提出了知识蒸馏的方 解,将声信号分解到不同尺度上进行表示 [9] ,从而
法,成功实现了网络与网络之间的知识转移,但是 得到声信号的时频表达;而 Mel 谱图是基于人类听
知识蒸馏方法存在多网络训练,且设计复杂的缺点。 觉系统对不同频率尺度的感知,在 STFT 基础上进
2016年,Søgaard 等 [8] 证明了多任务学习的性能取 一步提取具有不同频率成分的特征信息,与 STFT
决于多个相关任务的相似性,而在声场景分类中难 和小波变换相比,它提供更集中的声音频谱表示。
以找到合适的相似任务。2018年,Song等 [5] 对协同 由于这些时频表达方法得到的频谱图可以看成一
学习中辅助分支的设计和不同引入中间层位置的 幅图像,因此也可以采用图像处理的方法对其特
选择进行了研究,研究证明简单的添加辅助分类器 征进行进一步描述,常用的方法如局部二进制模