Page 56 - 《应用声学》2022年第3期

P. 56

378 2022 年 5 月

由图 4 可以看出，在 TSCNN-CL 训练过程中，这并不意味着早期层输出的特征图已经达到了最
在迭代 10 Epoch 之前训练集和验证集的损失值从好的效果，而只是达到了一个局部最优。换言之，
0.14 迅速下降，在 10 Epoch 和 30 Epoch 之间损失整体网络的性能由于早期层的卷积核没有得到充
函数缓慢下降，40 Epoch 之后的损失值逐渐趋于分的训练，而导致最终的分类效果没有得到提升。
平稳，且稳定在 0.015。由于采用的验证集数据样 TSCNN-CL 则通过对早期的卷积层添加协同分支，
本和训练集样本不同，两个模型在验证时损失值在使其继续进行训练，从而提高了其输出的特征图质
20 Epoch 左右存在震荡。此外，在与 TSCNN 的比量，因此增强了网络的分类性能。
较中可以看出，TSCNN-CL的损失函数曲线变化更
加平滑，收敛更加迅速。表 1 不同分支之间的实验结果比较
4.4 单分支与多分支比较 Table 1 Comparison of experimental re-
sults among diﬀerent branches
为验证多分支协同学习的有效性，本文分别在
(单位: %)
A位、B位和 C 位引出同构协同分支进行测试。图 5
分别展示了对应 3 个位点的网络结构。不同位点分 Model ESC-10 ESC-50 UrbanSound8k
支实验结果的分类正确率如表 1 所示。从表 1 可以 TSCNN-CL-A 92.20 83.60 83.70
看出，分支位点的位置越靠前，网络的性能越好。这 TSCNN-CL-B 92.30 83.70 83.80

是因为在网络的训练过程中随着迭代次数的增加， TSCNN-CL-C 92.80 83.90 84.00
CNN 早期层的卷积核参数的变化会趋于平缓。但 TSCNN-CL-BC 93.50 84.60 84.50

Input Input Input
TFblock1 TFblock1 TFblock1
C C C
TFblock2 TFblock2 TFblock2 TFblock2
B B B
TFblock3 TFblock3 TFblock3 TFblock3 TFblock3
A
A A
TFblock4 TFblock4 TFblock4 TFblock4 TFblock4 TFblock4

Лᤌଌࡏ(FC layer) Лᤌଌࡏ(FC layer) Лᤌଌࡏ(FC layer) Лᤌଌࡏ(FC layer) Лᤌଌࡏ(FC layer) Лᤌଌࡏ(FC layer)
SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨ SoftmaxѬዝ٨
CNN-CL-C CNN-CL-B CNN-CL-A
图 5 不同分支的框架
Fig. 5 The frameworks of diﬀerent branches

4.5 实验结果比较与分析人工设计特征和原始声信号。人工设计特征是指声
为了验证 TSCNN-CL 模型的性能，本文将其场分类任务从原始声信号中提取人工设计的特征，
与当前主流方法进行了比较。通过交叉验证，实比如：时频图、梅尔图、梅尔倒谱系数作为神经网
验结果表明所提出的 TSCNN-CL 的平均分类准确络的输入进行训练。2017年，谷歌将GoogLeNet [15]

率在 ESC-50、ESC-10 和 UrbanSound8k 上分别为应用到了声场分类中，其采用梅尔图与梅尔倒谱系
84.6%、93.5% 和 84.5%，在 TS-CNN 实验结果的基数相结合的方式对声信号进行预处理，取得了良好
础上分别提升了1.2%、1.5%和1.0%。其中TS-CNN 的分类效果。但在实际声场景中，声信号与语声和
的结果是按照作者给出的代码在相同实验环境下音乐信号不同，面临着录制条件复杂、噪声较多等
进行复现得到的。声场景分类的主流方法中，按照问题，人工设计的特征无法对声信号的特征进行自
对声信号的与处理方式，可以分为两大类，分别是适应的表示。而原始声信号方案可以利用神经网络

51 52 53 54 55 56 57 58 59 60 61