Page 141 - 《应用声学》2020年第3期
P. 141
第 39 卷 第 3 期 杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究 461
损失,识别率会发生大幅降低。因此,分块维度对基 将大部分信息传递给下一层,以保证生成图谱的准
于LBP 特征提取的识别影响较大;若兼顾声能谱图 确程度;其次引入批规范化操作,解决了梯度消失
微观和宏观特性,适当地对其进行分块,不仅可提高 的问题;最后移除了全连接层并使用不同的激活函
识别效率,还可以提高识别质量。 数,具体超参数包括 Adam 优化、生成器使用 ReLU
激活函数、判别器使用 leakyReLU 激活函数、学习
4.0
率设为 0.0002、每个批次 32 个样本。实验证明图谱
3.5 MB-LBP+KNN
MBCS-LBP+KNN 生成效果较好,谱图生成前后对比图如图11和图12
3.0
Δ1 Δ1=1.34 s 所示。
គѿᫎ/s 2.0 Δ2 Δ2=0.76 s
2.5
Δ3=0.34 s
Δ4=0.32 s
1.5 Δ5=0.17 s
Δ3
1.0 1.28 s Δ4
0.5 Δ5
0
0 2 4 6 8 10
Ѭڱ N
(a) Ѭڱ፥एࠫគѿᫎᄊॖ־
84
తΈѬڱ Δ1=1.86%
Δ2=1.48%
82 Δ3=2.32%
Δ3 图 11 单物种 -麻雀鸣声原始谱图
Δ4=1.78%
Δ2 Δ4 Δ5=-1.92% Fig. 11 Original spectrum of single sparrow song
គѿဋ/% 80 Δ1
78
76
74 MB-LBP+KNN
Δ5
MBCS-LBP+KNN
72
0 2 4 6 8 10
Ѭڱ N
(b) Ѭڱ፥एࠫគѿဋᄊॖ־
图 10 LBP 特征分块维度对识别率及识别时间的
影响
Fig. 10 The influence of LBP feature block di- 图 12 单物种 -麻雀鸣声生成谱图
mension on recognition rate and recognition time Fig. 12 Generated spectrum of single sparrow song
3 生成式对抗网络进行数据增强 图 11 和图 12 展示了部分以麻雀鸣声为样本的
GAN 网络生成案例。因为谱图颜色表示能量高低,
针对自然复杂声学环境下鸟鸣声数据采集难 可以看出虽然背景噪声各不相同,但是生成的语音
度大、背景噪声高、质量难以保障等问题,本文应用 与原始语音边缘特征近似,表明 GAN 生成网络生
GAN 对原有的鸟鸣声数据集进行数据增强以解决 成再进行训练后生成的谱图能够反映原始鸣声特
鸣声数据不平衡的问题。 征谱图所描述的信息;而且谱图形状、结构差异性
3.1 图谱数据生成 较小,表明在 GAN 网络训练过程中学习到的知识
是可以被使用的,若将迭代次数增加,更进一步得到
参 考 文 献 [24–26] 使 用 深 度 卷 积 生 成 对 抗
更好的拟合谱图。
网 络 (Deep convolutional generated-adversarial-
network, DCGAN) 在禽鸟鸣声特征谱图数据上进 3.2 实验验证
行的实验,本文在判别器上和生成器上分别使用步 在实验中将鸣声数据分为三组:第一组为训练
幅卷积和微步幅卷积代替池化,这种卷积结构能够 集,第二组为数据增强后的 “训练集”,第三组为测