Page 57 - 《应用声学》2022年第3期
P. 57

第 41 卷 第 3 期                  梁腾等: 神经网络的声场景自动分类方法                                           379


             强大的特征提取能力,从声信号中提取出自适应的                            行加权学习,不仅能够有效避免噪声的干扰,而且通
             特征,同时也省去了复杂的人工设计特征过程。鉴                            过引入协同学习,能最大程度地挖掘网络潜力,进一
             于此优势,一些基于原始声信号的研究相继出现。                            步增强了网络的分类性能。表2 显示了TSCNN-CL
             2017年,Tokozum等    [16]  提出了一种称为EnvNet的            和其他主流方法的性能比较,结果表明,本文提出的
             一维体系结构,它使用原始声信号作为输入进行端                            协同学习的方法能够显著提高网络的分类效果。
             到端的训练,在当时达到了最好的分类效果。2019
             年,Abdoli 等  [15]  提出了 Gammatone 1D-CNN,模          5 结论与展望
             拟 Gammatone 滤波器组进行网络初始化,有效提
                                                                   本 文 提 出 了 一 种 基 于 协 同 学 习 的 时 频 卷
             高了网络的分类性能。尽管原始声信号方案与人工
                                                               积神经网络 (TSCNN-CL) 用于声场景自动分类。
             设计特征方案相比存在优势,但是由于一维的声信
                                                               TSCNN-CL 通过协同学习的方法,在不增加推理
             号比手工设计特征包含更多的噪声信息,并且神经
                                                               量的前提下,提高了网络的分类性能。首先在 TS-
             网络需要大量的声音数据用于训练,而声音数据的
                                                               CNN 的中间层引入两条协同分支,这两条协同分
             获取难度要高于图像和文本数据,所以目前的主流
                                                               支能够辅助监督中间层训练。其次在主干与分支之
             方案还是人工设计特征方案。
                                                               间设计了相应的辅助损失函数,使得主干和分支可
              表 2    TSCNN-CL 模型在 ESC-10、ESC-50 和              以进行信息交互,提高了网络的泛化能力,并且为
              UrbanSound8k 上与其他声场景分类模型的对比                      协同分支之间也设计了协同损失函数,实现了分支
              Table 2   Comparisons between TSCNN-CL           之间的成对知识匹配。最后,在推理的时候将分支
              model and other environmental sound classi-      屏蔽,保持推理运算量不变,使模型便于工业部署。
              fication models on ESC-10, ESC-50, and Ur-
                                                               在声场识别常用数据集 ESC-10、ESC-50 和 Urban-
              banSound8k datasets
                                                               Sound8k 上的实验结果表明所提出的 TSCNN-CL
                                                   (单位: %)
                                                               网络模型的分类效果较 TS-CNN 模型有较大提升,
                    Model        ESC-10 ESC-50 UrbanSound8k    且优于当前大部分的主流方法。
                   Human  [13]    95.70  81.30
                 GoogLeNet [15]   86.00  73.00    93.00
                                                                              参 考 文        献
                   Envnet  [16]   88.10  74.10    71.10
                 Piczak-CNN  [17]  90.20  64.50   73.70          [1] Radhakrishnan R, Divakaran A, Smaragdis A. Audio anal-
                  Envnet v2  [18]  91.30  84.70   78.30            ysis for surveillance applications[C]//IEEE Workshop on
                                                                   Applications of Signal Processing to Audio and Acoustics,
                VGG-like CNN  [19]  91.70  83.90  83.70
                                                                   2005: 158–161.
              GTSC+TEO-GTSC  [20]        81.90    88.00          [2] Giannoulis D, Stowell D, Plumbley M. Acoustic scene clas-

             Gammatone 1D-CNN  [21]               89.00            sification: classifying environments from the sounds they
                                                                   produce[C]// IEEE Signal Processing Magazine, 2015:
                  TS-CNN  [4]     92.00  83.40    83.50
                                                                   16–34.
             TSCNN-CL-BC(ours)    93.50  84.60    84.50          [3] Vacher M, Serignat J F, Chaillol S. Sound classification
                                                                   in a smart room environment: an approach using GMM
                 此外,GoogLeNet 在 UrbanSound8k 上的测试                  and HMM methods[C]// The 4th IEEE Conference on
                                                                   Speech Technology and Human-Computer Dialogue, 2007:
             并没有按照标准划分10个子集进行交叉验证,而是
                                                                   135–146.
             采用了5个随机划分的交叉验证集。而Gammatone                          [4] Wang H, Zou Y, Chong D, et al.  Environmental
             1D-CNN 虽然在 UrbanSound8k 分类效果较好,但                      sound classification with parallel temporal-spectral atten-
                                                                   tion[C]// INTERSPEECH 2020, 2020: 25–29.
             主要是对声音特征进行了重叠提取,提取的相邻特
                                                                 [5] SongG, Chai W. Collaborative learning for deep neu-
             征信息之间存在 50% 的重叠,相当于对数据进行了                             ral networks[C]// the 32nd International Conference on
             增强,且测试集里包含了训练集的样本,因而提升了                               Neural Information Processing Systems (NIPS’18), 2018:
                                                                   1832–1841.
             分类效果。TSCNN-CL 与其他主流方法相比,采用
                                                                 [6] Caruana R A. Multitask learning: a knowledge-based
             了时频注意力模块对声信号的时间和频率特征进                                 source of inductive bias[C]// In Proceedings of the Tenth
   52   53   54   55   56   57   58   59   60   61   62