Page 53 - 《应用声学》2022年第3期
P. 53
第 41 卷 第 3 期 梁腾等: 神经网络的声场景自动分类方法 375
式 (Local binary patterns, LPB) 或方向梯度直方 在提取深层特征时没有充分利用声音特有的频率
图(Histogram of oriented gradient, HOG)等 [10] 。 和时间特征的缺陷。TS-CNN 在 CNN 中引入时间
上述声音特征提取方法只适合对特定领域的 —频率平行注意力机制,通过根据不同时间帧和频
声信号进行表达。而对数梅尔谱图法 (Log-Mel) 通 带的重要性进行加权对时间和频谱特征进行有选
过对梅尔谱图取对数,压缩了频率的尺度,使特征变 择的学习,同时平行分支构造可以分别应用时间注
化更加平稳。同时避免了梅尔谱图因频率相差过高 意力和频谱注意力,有效避免了噪声干扰。
而导致的数据计算困难、低频率数据容易被忽视等 TS-CNN 的网络结构如图 2 所示。它由 4 个时
问题,能够对不同领域的声信号进行更准确的表达。 频卷积模块 (TFblock) 组成,分别具有 64、128、256
为此,本文选择 Log-Mel谱图对声音特征进行表达。 和 512 个输出通道。其中每个卷积模块包含 2 个卷
图1展示了一段烟火声的Log-Mel谱图。 积层,卷积核大小为 3 × 3,提取的对数梅尔谱图
先通过时频注意力模块进行提取特征,然后经过平
2 时频卷积神经网络 均池化层进行下采样,最后连接全局池化层和全连
接层。在每个卷积层后都采用批量归一化层 [11] 和
时频卷积神经网络 (TS-CNN) 是由 Wang等 [4] ReLU [12] 激活函数。4 个卷积层模块依次相连,使
提出的用于声场景分类的 CNN,弥补了此前网络 用Softmax分类器进行分类。
4.0
ᮠဋ/kHz 3.0
2.0
1.0
0
0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
ᫎ/s
图 1 烟火的对数梅尔谱图示例
Fig. 1 Example of Log-Mel of pyrotechnics
Лᤌଌࡏ
Log-Mel
spectorgram
TFblock1 TFblock2 TFblock3 TFblock4 Ѭዝ٨
ྲ
ᫎฌਓҧ ढ़ Ѭ
വڱ ᚸ ዝ Ѭዝፇ౧
Ռ ٨
ࡏ
ᮠဋฌਓҧ
വڱ
3f3Ԅሥ 1f1Ԅሥ
Лࡍӑࡏ
Лᤌ Лᤌ
ଌࡏ ଌࡏ
1 * F * 1 1 * F * 1 T * 1 * 1 T * 1 * 1
ᮠဋฌਓҧവڱ ᫎฌਓҧവڱ
图 2 TS-CNN 结构框图
Fig. 2 TS-CNN model framework