Page 57 - 《应用声学》2022年第3期
P. 57
第 41 卷 第 3 期 梁腾等: 神经网络的声场景自动分类方法 379
强大的特征提取能力,从声信号中提取出自适应的 行加权学习,不仅能够有效避免噪声的干扰,而且通
特征,同时也省去了复杂的人工设计特征过程。鉴 过引入协同学习,能最大程度地挖掘网络潜力,进一
于此优势,一些基于原始声信号的研究相继出现。 步增强了网络的分类性能。表2 显示了TSCNN-CL
2017年,Tokozum等 [16] 提出了一种称为EnvNet的 和其他主流方法的性能比较,结果表明,本文提出的
一维体系结构,它使用原始声信号作为输入进行端 协同学习的方法能够显著提高网络的分类效果。
到端的训练,在当时达到了最好的分类效果。2019
年,Abdoli 等 [15] 提出了 Gammatone 1D-CNN,模 5 结论与展望
拟 Gammatone 滤波器组进行网络初始化,有效提
本 文 提 出 了 一 种 基 于 协 同 学 习 的 时 频 卷
高了网络的分类性能。尽管原始声信号方案与人工
积神经网络 (TSCNN-CL) 用于声场景自动分类。
设计特征方案相比存在优势,但是由于一维的声信
TSCNN-CL 通过协同学习的方法,在不增加推理
号比手工设计特征包含更多的噪声信息,并且神经
量的前提下,提高了网络的分类性能。首先在 TS-
网络需要大量的声音数据用于训练,而声音数据的
CNN 的中间层引入两条协同分支,这两条协同分
获取难度要高于图像和文本数据,所以目前的主流
支能够辅助监督中间层训练。其次在主干与分支之
方案还是人工设计特征方案。
间设计了相应的辅助损失函数,使得主干和分支可
表 2 TSCNN-CL 模型在 ESC-10、ESC-50 和 以进行信息交互,提高了网络的泛化能力,并且为
UrbanSound8k 上与其他声场景分类模型的对比 协同分支之间也设计了协同损失函数,实现了分支
Table 2 Comparisons between TSCNN-CL 之间的成对知识匹配。最后,在推理的时候将分支
model and other environmental sound classi- 屏蔽,保持推理运算量不变,使模型便于工业部署。
fication models on ESC-10, ESC-50, and Ur-
在声场识别常用数据集 ESC-10、ESC-50 和 Urban-
banSound8k datasets
Sound8k 上的实验结果表明所提出的 TSCNN-CL
(单位: %)
网络模型的分类效果较 TS-CNN 模型有较大提升,
Model ESC-10 ESC-50 UrbanSound8k 且优于当前大部分的主流方法。
Human [13] 95.70 81.30
GoogLeNet [15] 86.00 73.00 93.00
参 考 文 献
Envnet [16] 88.10 74.10 71.10
Piczak-CNN [17] 90.20 64.50 73.70 [1] Radhakrishnan R, Divakaran A, Smaragdis A. Audio anal-
Envnet v2 [18] 91.30 84.70 78.30 ysis for surveillance applications[C]//IEEE Workshop on
Applications of Signal Processing to Audio and Acoustics,
VGG-like CNN [19] 91.70 83.90 83.70
2005: 158–161.
GTSC+TEO-GTSC [20] 81.90 88.00 [2] Giannoulis D, Stowell D, Plumbley M. Acoustic scene clas-
Gammatone 1D-CNN [21] 89.00 sification: classifying environments from the sounds they
produce[C]// IEEE Signal Processing Magazine, 2015:
TS-CNN [4] 92.00 83.40 83.50
16–34.
TSCNN-CL-BC(ours) 93.50 84.60 84.50 [3] Vacher M, Serignat J F, Chaillol S. Sound classification
in a smart room environment: an approach using GMM
此外,GoogLeNet 在 UrbanSound8k 上的测试 and HMM methods[C]// The 4th IEEE Conference on
Speech Technology and Human-Computer Dialogue, 2007:
并没有按照标准划分10个子集进行交叉验证,而是
135–146.
采用了5个随机划分的交叉验证集。而Gammatone [4] Wang H, Zou Y, Chong D, et al. Environmental
1D-CNN 虽然在 UrbanSound8k 分类效果较好,但 sound classification with parallel temporal-spectral atten-
tion[C]// INTERSPEECH 2020, 2020: 25–29.
主要是对声音特征进行了重叠提取,提取的相邻特
[5] SongG, Chai W. Collaborative learning for deep neu-
征信息之间存在 50% 的重叠,相当于对数据进行了 ral networks[C]// the 32nd International Conference on
增强,且测试集里包含了训练集的样本,因而提升了 Neural Information Processing Systems (NIPS’18), 2018:
1832–1841.
分类效果。TSCNN-CL 与其他主流方法相比,采用
[6] Caruana R A. Multitask learning: a knowledge-based
了时频注意力模块对声信号的时间和频率特征进 source of inductive bias[C]// In Proceedings of the Tenth