Page 53 - 《应用声学》2022年第3期
P. 53

第 41 卷 第 3 期                  梁腾等: 神经网络的声场景自动分类方法                                           375


             式 (Local binary patterns, LPB) 或方向梯度直方            在提取深层特征时没有充分利用声音特有的频率
             图(Histogram of oriented gradient, HOG)等  [10] 。   和时间特征的缺陷。TS-CNN 在 CNN 中引入时间
                 上述声音特征提取方法只适合对特定领域的                           —频率平行注意力机制,通过根据不同时间帧和频
             声信号进行表达。而对数梅尔谱图法 (Log-Mel) 通                      带的重要性进行加权对时间和频谱特征进行有选
             过对梅尔谱图取对数,压缩了频率的尺度,使特征变                           择的学习,同时平行分支构造可以分别应用时间注
             化更加平稳。同时避免了梅尔谱图因频率相差过高                            意力和频谱注意力,有效避免了噪声干扰。
             而导致的数据计算困难、低频率数据容易被忽视等                                TS-CNN 的网络结构如图 2 所示。它由 4 个时
             问题,能够对不同领域的声信号进行更准确的表达。                           频卷积模块 (TFblock) 组成,分别具有 64、128、256
             为此,本文选择 Log-Mel谱图对声音特征进行表达。                       和 512 个输出通道。其中每个卷积模块包含 2 个卷
             图1展示了一段烟火声的Log-Mel谱图。                             积层,卷积核大小为 3 × 3,提取的对数梅尔谱图
                                                               先通过时频注意力模块进行提取特征,然后经过平
             2 时频卷积神经网络                                        均池化层进行下采样,最后连接全局池化层和全连
                                                               接层。在每个卷积层后都采用批量归一化层                      [11]  和
                 时频卷积神经网络 (TS-CNN) 是由 Wang等              [4]   ReLU  [12]  激活函数。4 个卷积层模块依次相连,使
             提出的用于声场景分类的 CNN,弥补了此前网络                           用Softmax分类器进行分类。

                                 4.0
                                ᮠဋ/kHz  3.0
                                 2.0
                                 1.0
                                  0
                                   0      0.5     1.0    1.5     2.0     2.5     3.0     3.5
                                                            ௑ᫎ/s
                                                图 1  烟火的对数梅尔谱图示例
                                           Fig. 1 Example of Log-Mel of pyrotechnics

                                                                                  Лᤌଌࡏ
                         Log-Mel
                        spectorgram
                                         TFblock1  TFblock2  TFblock3  TFblock4               Ѭዝ٨










                                                                                  ྲ
                                                          ௑ᫎฌਓҧ                   ढ़  Ѭ
                                                            വڱ                    ᚸ  ዝ    Ѭዝፇ౧
                                                                                  Ռ  ٨
                                                                                  ࡏ
                                                          ᮠဋฌਓҧ
                                                            വڱ
                                  3f3Ԅሥ  1f1Ԅሥ
                                         Лࡍ෉ӑࡏ
                                                                  Лᤌ               Лᤌ
                                                                  ଌࡏ               ଌࡏ
                                                             1 * F * 1  1 * F * 1  T * 1 * 1  T * 1 * 1
                                                            ᮠဋฌਓҧവڱ             ௑ᫎฌਓҧവڱ

                                                   图 2  TS-CNN 结构框图
                                               Fig. 2 TS-CNN model framework
   48   49   50   51   52   53   54   55   56   57   58