Page 44 - 《应用声学》2020年第2期
P. 44

202                                                                                  2020 年 3 月


                 对鸣声进行预处理后,分别采用以上 3 种时频                        集作为输入时,模型的识别效果不同                 [15] 。对同一对
             变换方法生成语图,图 1 为棕柳莺的鸣声信号及计                          象的不同特征进行融合,得到的特征更全面,有利于
             算得到的语图,从上到下依次为鸣声信号的时域波                            提高分类的效果。多特征的融合方法直接影响融合
             形、STFT语图、Mel语图以及Chirplet语图。                       特征的表达能力,目前,常用的多特征融合方法有直
             1.4 语图样本集的建立                                      接叠加、串行或者并行连接以及加权求和等                    [11] 。前
                                                               两类方法不能体现不同特征的差异性,同时还扩大
                 利用语图特征进行分类时,选择音节特征作为
                                                               了特征的维数,增大了计算量。因此,采用加权求和
             输入比选择鸣唱特征的分类效果更好                  [15] 。因此,本
                                                               的方式,引入权重的概念,表征不同的特征在识别过
             文将分割后的鸣声信号继续分帧,得到持续时间为
                                                               程中的贡献度。
             500 ms 的鸣声信号,计算其对应的语图,保存成大
                                                                   为了充分利用 3 种语图特征,进一步提升识别
             小为 224×224 的彩色图像,作为模型的输入,以通
                                                               性能,首先构建 3个不同的基于VGG16的特征迁移
             过语图图像特征的差异,实现鸟类物种的识别。最
                                                               模型,分别提取 3 种语图的特征。然后,将提取的 3
             终计算得到 35 种鸟类的鸣声语图数量如表 1 所示。
                                                               种特征进行自适应线性加权,一方面实现基于特征
             利用 3 种不同的时频变换对鸣声信号进行计算,便
                                                               的融合,另一方面保持特征维度,可以不增加模型参
             可得到3个不同的鸣声语图样本集。
                                                               数。融合后的特征F 如式(1)所示:
             2 多特征融合的鸟类物种识别模型                                                       ∑
                                                                                     3
                                                                                         n n
                                                                               F =     ω y ,              (1)
             2.1 基于VGG16的特征迁移模型                                                     n=1
                                                                      n
                                                                           n
                 DCNN 利用多层卷积层和池化层的组合自主                         其中,ω 和 y 分别表示特征 n 相应的权值和特征
             学习图像特征,配合全连接层对特征进行分类,                             向量。不同的权值可以表征不同的特征在识别过程
                                                                                        3
                                                                                      ∑
             进而实现图像的识别。DCNN 可以通过局部连接、                          中的贡献度,且满足条件                ω = 1。该权值参与
                                                                                           n
             权值共享及池化操作等有效地降低网络的复杂                                                     n=1
                                                               训练和更新过程,通过迭代自动获得最优的权值。
             度,减少训练参数的数目           [5,16] 。VGG16是一种典型
                                                                   最后,将融合后的特征输出到2个全连接层和1
             的 DCNN,由于其在 ImageNet 图片分类中的优异
                                                               个 Softmax 输出层组成的分类器中,基于多特征融
             性能,在图像识别领域得到了广泛的应用                     [17−19] 。
                                                               合模型的鸟类物种识别流程如图2所示。
             DCNN 的模型的参数随着深度的增大而增加,训练
             过程需要输入更多的己标注样本。如果缺乏足够的                                             ܳྲढ़ᚸՌគѿവی
             已标注样本,训练时容易导致过拟合,无法得到有效                                              ۳̆VGG16ᄊྲढ़
                                                                        STFTឦڏ     ᣻ረߦ˸വی1
             的识别模型。
                                                                 Პ                                       Ლ
                 基于迁移学习的思想,利用预训练好的模型作                            ܦ                ۳̆VGG16ᄊྲढ़      ᚸ   Ѭ  ዝ
                                                                 η      Melឦڏ      ᣻ረߦ˸വی2        Ռ   ዝ  ྭ
             为特征提取器,冻结特征提取模型的参数,训练时不                             Ղ                                    ٨  መ
             再参与更新,只更新用于分类器的参数,可以大大减                                  Chirpletឦڏ  ۳̆VGG16ᄊྲढ़
                                                                                   ᣻ረߦ˸വی3
             小对已标注样本的需求量            [20−21] 。本文将鸟鸣声的
             识别等效成对鸣声语图的识别,基于 VGG16 模型                             图 2  基于多特征融合模型的鸟类物种识别流程
             将图像识别问题迁移到基于鸣声语图的鸟类物种                                Fig. 2 Procedure of bird species recognition based
             识别中。选择ImageNet预训练好的 VGG16模型参                         on multi-feature fusion
             数作为特征提取模型参数的初始值,通过训练对模
                                                                   在训练时,先利用 3 种不同的语图分别作为样
             型参数进行微调,可以提高训练效率,同时有利于样
                                                               本集,训练出 3 个基于 VGG16 的特征迁移模型;在
             本数据量小的情况下的模型训练。
                                                               多特征融合模型中,这3个基于VGG16的特征迁移
             2.2 多特征融合模型                                       模型的参数不再参与更新,以克服由于模型增大后
                 由不同的时频变换方法计算得到的不同语图,                          带来的参数数量增大进而对样本数量需求增大的
             可以表征鸟鸣声的不同特征。采用不同的语图样本                            缺陷。
   39   40   41   42   43   44   45   46   47   48   49