Page 55 - 《应用声学》2022年第3期
P. 55
第 41 卷 第 3 期 梁腾等: 神经网络的声场景自动分类方法 377
因为 KL 散度不具有交换性,TSCNN-CL 的 3 声频片段组成,一共分为 10 类:“空调”“汽车喇
条支路两两交互,因此设计了6个KL散度来组成辅 叭”“儿童玩耍”“狗叫”“钻孔”“发动机空转”“枪声”
助损失函数L AUX 。 “风钻”“警笛”“街头音乐”。每个类的总声频时长是
不均衡的,且每个声频样本的时长可变,最长是 4 s,
4 实验结果与分析
最短是2 s。样本采样频率从16 kHz到48 kHz不等。
实验使用官方的 10 个交叉验证数据集进行模型性
为验证所提 TSCNN-CL 网络模型的有效性,
本文在 ESC-10、ESC-50 和 UrbanSound8k 三个常 能评价。
用基准声音数据集上进行了分类实验验证。
4.2 数据预处理
4.1 数据库 本文首先将所有的原始声频样本重新采至
(1) ESC-50/ESC-10 [13] :ESC-50 数据集是由 44.1 kHz,并且通过零填充将声频补充到同一长度:
2000 个环境音频记录的集合,是一个适用于声场 ESC-10 和 ESC-50 扩充到 5 s,UrbanSound8k 扩充
景分类的基准数据集。数据集中每个记录由 5 s 长 到 4 s。然后采用 STFT 提取声频样本的谱图,设定
的录音组成,分为 50 个小语义类 (每个类有 40 个样 的窗口大小为 40 ms,跳跃大小为 20 ms。最后通过
本)。其中声频的采样频率为44.1 kHz。所有数据集 梅尔滤波器得到对数梅尔频谱图。
被分为 5 个子集进行交叉验证,本文中将采用交叉
4.3 网络训练
验证结果的平均对网络性能进行评估。而 ESC-10
数据集是 ESC-50 数据集的一个子集,包含 10 个类 在进行网络训练时,本文选择 Adam 算法作为
别,每类40个例子。ESC-10数据集的所有其他特征 优化器,使用默认参数,初始学习率设置为 0.03,指
都与ESC-50数据集相同。 数衰减率为 0.99。协同分支在训练时与主干网络一
(2) UrbanSound8k [14] :Urbansound8k 是目前 同训练,在推理时将其屏蔽,不增加额外推理代价。
应用最为广泛的公共数据集,主要用于自动城市 该网络由 PyTorch 实现,并且在 Tesla V100 上进行
环境声分类研究。UrbanSound8k 数据集由 8732 个 训练。图4为网络训练过程中的损失函数变化曲线。
0.14 0.14
0.12 0.12
0.10 0.10
TSCNN-CL Loss 0.08 Loss 0.08
0.06
0.06
0.04
0.02
0.02 0.04
0 0
0 20 40 60 80 0 20 40 60 80
Epoch Epoch
(a) TSCNN-CLښᝫጷሮ˗ᄊ૯ܿѦజጳ (b) TSCNN-CLښᰎሮ˗ᄊ૯ܿѦజጳ
0.14 0.14
0.12 0.12
0.10 0.10
TSCNN Loss 0.08 Loss 0.08
0.06
0.06
0.04 0.04
0.02 0.02
0 0
0 20 40 60 80 0 20 40 60 80
Epoch Epoch
(c) TSCNNښᝫጷሮ˗ᄊ૯ܿѦజጳ (d) TSCNNښᰎሮ˗ᄊ૯ܿѦజጳ
图 4 TSCNN-CL 与 TS-CNN 的训练过程中损失函数变化曲线对比
Fig. 4 Comparison of loss changes in TSCNN-CL and TS-CNN models during the training process