Page 55 - 《应用声学》2022年第3期
P. 55

第 41 卷 第 3 期                  梁腾等: 神经网络的声场景自动分类方法                                           377


                 因为 KL 散度不具有交换性,TSCNN-CL 的 3                   声频片段组成,一共分为 10 类:“空调”“汽车喇
             条支路两两交互,因此设计了6个KL散度来组成辅                           叭”“儿童玩耍”“狗叫”“钻孔”“发动机空转”“枪声”
             助损失函数L AUX 。                                      “风钻”“警笛”“街头音乐”。每个类的总声频时长是
                                                               不均衡的,且每个声频样本的时长可变,最长是 4 s,
             4 实验结果与分析
                                                               最短是2 s。样本采样频率从16 kHz到48 kHz不等。
                                                               实验使用官方的 10 个交叉验证数据集进行模型性
                 为验证所提 TSCNN-CL 网络模型的有效性,
             本文在 ESC-10、ESC-50 和 UrbanSound8k 三个常              能评价。
             用基准声音数据集上进行了分类实验验证。
                                                               4.2  数据预处理
             4.1 数据库                                               本文首先将所有的原始声频样本重新采至
                 (1) ESC-50/ESC-10  [13] :ESC-50 数据集是由         44.1 kHz,并且通过零填充将声频补充到同一长度:
             2000 个环境音频记录的集合,是一个适用于声场                          ESC-10 和 ESC-50 扩充到 5 s,UrbanSound8k 扩充
             景分类的基准数据集。数据集中每个记录由 5 s 长                         到 4 s。然后采用 STFT 提取声频样本的谱图,设定
             的录音组成,分为 50 个小语义类 (每个类有 40 个样                     的窗口大小为 40 ms,跳跃大小为 20 ms。最后通过
             本)。其中声频的采样频率为44.1 kHz。所有数据集                       梅尔滤波器得到对数梅尔频谱图。
             被分为 5 个子集进行交叉验证,本文中将采用交叉
                                                               4.3  网络训练
             验证结果的平均对网络性能进行评估。而 ESC-10
             数据集是 ESC-50 数据集的一个子集,包含 10 个类                         在进行网络训练时,本文选择 Adam 算法作为
             别,每类40个例子。ESC-10数据集的所有其他特征                        优化器,使用默认参数,初始学习率设置为 0.03,指

             都与ESC-50数据集相同。                                    数衰减率为 0.99。协同分支在训练时与主干网络一
                 (2) UrbanSound8k  [14] :Urbansound8k 是目前      同训练,在推理时将其屏蔽,不增加额外推理代价。
             应用最为广泛的公共数据集,主要用于自动城市                             该网络由 PyTorch 实现,并且在 Tesla V100 上进行
             环境声分类研究。UrbanSound8k 数据集由 8732 个                  训练。图4为网络训练过程中的损失函数变化曲线。

                             0.14                                  0.14
                             0.12                                  0.12
                             0.10                                  0.10
                         TSCNN-CL  Loss  0.08                     Loss  0.08
                                                                   0.06
                             0.06
                             0.04
                                                                   0.02
                             0.02                                  0.04
                               0                                     0
                                 0     20    40    60    80            0     20    40    60    80
                                           Epoch                                  Epoch
                               (a) TSCNN-CLښᝫጷ᣿ሮ˗ᄊ૯ܿѦ஝జጳ             (b) TSCNN-CLښᰎ᝽᣿ሮ˗ᄊ૯ܿѦ஝జጳ

                             0.14                                  0.14
                             0.12                                  0.12
                             0.10                                  0.10
                         TSCNN  Loss  0.08                        Loss  0.08
                             0.06
                                                                   0.06
                             0.04                                  0.04
                             0.02                                  0.02
                               0                                     0
                                 0     20    40    60    80            0     20    40     60    80
                                           Epoch                                  Epoch
                                 (c) TSCNNښᝫጷ᣿ሮ˗ᄊ૯ܿѦ஝జጳ                (d) TSCNNښᰎ᝽᣿ሮ˗ᄊ૯ܿѦ஝జጳ
                                  图 4  TSCNN-CL 与 TS-CNN 的训练过程中损失函数变化曲线对比
                     Fig. 4 Comparison of loss changes in TSCNN-CL and TS-CNN models during the training process
   50   51   52   53   54   55   56   57   58   59   60