Page 141 - 《应用声学》2020年第3期
P. 141

第 39 卷 第 3 期            杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究                                          461


             损失,识别率会发生大幅降低。因此,分块维度对基                           将大部分信息传递给下一层,以保证生成图谱的准
             于LBP 特征提取的识别影响较大;若兼顾声能谱图                          确程度;其次引入批规范化操作,解决了梯度消失
             微观和宏观特性,适当地对其进行分块,不仅可提高                           的问题;最后移除了全连接层并使用不同的激活函
             识别效率,还可以提高识别质量。                                   数,具体超参数包括 Adam 优化、生成器使用 ReLU
                                                               激活函数、判别器使用 leakyReLU 激活函数、学习
                    4.0
                                                               率设为 0.0002、每个批次 32 个样本。实验证明图谱
                    3.5                   MB-LBP+KNN
                                          MBCS-LBP+KNN         生成效果较好,谱图生成前后对比图如图11和图12
                    3.0
                          Δ1                  Δ1=1.34 s        所示。
                  គѿ௑ᫎ/s  2.0   Δ2            Δ2=0.76 s
                    2.5
                                              Δ3=0.34 s
                                              Δ4=0.32 s
                    1.5                       Δ5=0.17 s
                                      Δ3
                    1.0            1.28 s   Δ4
                    0.5                           Δ5
                     0
                      0     2     4     6      8    10
                                   Ѭڱ஝ N
                            (a) Ѭڱ፥एࠫគѿ௑ᫎᄊॖ־

                    84
                                   తΈѬڱ஝     Δ1=1.86%
                                             Δ2=1.48%
                    82                       Δ3=2.32%
                                      Δ3                                 图 11  单物种 -麻雀鸣声原始谱图
                                             Δ4=1.78%
                                Δ2        Δ4  Δ5=-1.92%           Fig. 11 Original spectrum of single sparrow song
                   គѿဋ/% 80  Δ1
                    78
                    76
                    74       MB-LBP+KNN
                                                   Δ5
                             MBCS-LBP+KNN
                    72
                      0     2     4     6      8    10
                                   Ѭڱ஝ N
                             (b) Ѭڱ፥एࠫគѿဋᄊॖ־
                图 10  LBP 特征分块维度对识别率及识别时间的
                影响
                Fig. 10 The influence of LBP feature block di-            图 12  单物种 -麻雀鸣声生成谱图
                mension on recognition rate and recognition time  Fig. 12 Generated spectrum of single sparrow song

             3 生成式对抗网络进行数据增强                                       图 11 和图 12 展示了部分以麻雀鸣声为样本的
                                                               GAN 网络生成案例。因为谱图颜色表示能量高低,
                 针对自然复杂声学环境下鸟鸣声数据采集难                           可以看出虽然背景噪声各不相同,但是生成的语音
             度大、背景噪声高、质量难以保障等问题,本文应用                           与原始语音边缘特征近似,表明 GAN 生成网络生
             GAN 对原有的鸟鸣声数据集进行数据增强以解决                           成再进行训练后生成的谱图能够反映原始鸣声特
             鸣声数据不平衡的问题。                                       征谱图所描述的信息;而且谱图形状、结构差异性

             3.1 图谱数据生成                                        较小,表明在 GAN 网络训练过程中学习到的知识
                                                               是可以被使用的,若将迭代次数增加,更进一步得到
                 参 考 文 献 [24–26] 使 用 深 度 卷 积 生 成 对 抗
                                                               更好的拟合谱图。
             网 络 (Deep convolutional generated-adversarial-
             network, DCGAN) 在禽鸟鸣声特征谱图数据上进                     3.2  实验验证
             行的实验,本文在判别器上和生成器上分别使用步                                在实验中将鸣声数据分为三组:第一组为训练
             幅卷积和微步幅卷积代替池化,这种卷积结构能够                            集,第二组为数据增强后的 “训练集”,第三组为测
   136   137   138   139   140   141   142   143   144   145   146