Page 44 - 《应用声学》2020年第2期

P. 44

202 2020 年 3 月

对鸣声进行预处理后，分别采用以上 3 种时频集作为输入时，模型的识别效果不同 [15] 。对同一对
变换方法生成语图，图 1 为棕柳莺的鸣声信号及计象的不同特征进行融合，得到的特征更全面，有利于
算得到的语图，从上到下依次为鸣声信号的时域波提高分类的效果。多特征的融合方法直接影响融合
形、STFT语图、Mel语图以及Chirplet语图。特征的表达能力，目前，常用的多特征融合方法有直
1.4 语图样本集的建立接叠加、串行或者并行连接以及加权求和等 [11] 。前
两类方法不能体现不同特征的差异性，同时还扩大
利用语图特征进行分类时，选择音节特征作为
了特征的维数，增大了计算量。因此，采用加权求和
输入比选择鸣唱特征的分类效果更好 [15] 。因此，本
的方式，引入权重的概念，表征不同的特征在识别过
文将分割后的鸣声信号继续分帧，得到持续时间为
程中的贡献度。
500 ms 的鸣声信号，计算其对应的语图，保存成大
为了充分利用 3 种语图特征，进一步提升识别
小为 224×224 的彩色图像，作为模型的输入，以通
性能，首先构建 3个不同的基于VGG16的特征迁移
过语图图像特征的差异，实现鸟类物种的识别。最
模型，分别提取 3 种语图的特征。然后，将提取的 3
终计算得到 35 种鸟类的鸣声语图数量如表 1 所示。
种特征进行自适应线性加权，一方面实现基于特征
利用 3 种不同的时频变换对鸣声信号进行计算，便
的融合，另一方面保持特征维度，可以不增加模型参
可得到3个不同的鸣声语图样本集。
数。融合后的特征F 如式(1)所示：
2 多特征融合的鸟类物种识别模型 ∑
3
n n
F = ω y , (1)
2.1 基于VGG16的特征迁移模型 n=1
n
n
DCNN 利用多层卷积层和池化层的组合自主其中，ω 和 y 分别表示特征 n 相应的权值和特征
学习图像特征，配合全连接层对特征进行分类，向量。不同的权值可以表征不同的特征在识别过程
3
∑
进而实现图像的识别。DCNN 可以通过局部连接、中的贡献度，且满足条件 ω = 1。该权值参与
n
权值共享及池化操作等有效地降低网络的复杂 n=1
训练和更新过程，通过迭代自动获得最优的权值。
度，减少训练参数的数目 [5,16] 。VGG16是一种典型
最后，将融合后的特征输出到2个全连接层和1
的 DCNN，由于其在 ImageNet 图片分类中的优异
个 Softmax 输出层组成的分类器中，基于多特征融
性能，在图像识别领域得到了广泛的应用 [17−19] 。
合模型的鸟类物种识别流程如图2所示。
DCNN 的模型的参数随着深度的增大而增加，训练
过程需要输入更多的己标注样本。如果缺乏足够的 ܳྲढ़ᚸՌគѿവی
已标注样本，训练时容易导致过拟合，无法得到有效 ۳̆VGG16ᄊྲढ़
STFTឦڏ ᣻ረߦ˸വی1
的识别模型。
Პ Ლ
基于迁移学习的思想，利用预训练好的模型作 ܦ ۳̆VGG16ᄊྲढ़ ᚸ Ѭ ዝ
η Melឦڏ ᣻ረߦ˸വی2 Ռ ዝ ྭ
为特征提取器，冻结特征提取模型的参数，训练时不 Ղ ٨ መ
再参与更新，只更新用于分类器的参数，可以大大减 Chirpletឦڏ ۳̆VGG16ᄊྲढ़
᣻ረߦ˸വی3
小对已标注样本的需求量 [20−21] 。本文将鸟鸣声的
识别等效成对鸣声语图的识别，基于 VGG16 模型图 2 基于多特征融合模型的鸟类物种识别流程
将图像识别问题迁移到基于鸣声语图的鸟类物种 Fig. 2 Procedure of bird species recognition based
识别中。选择ImageNet预训练好的 VGG16模型参 on multi-feature fusion
数作为特征提取模型参数的初始值，通过训练对模
在训练时，先利用 3 种不同的语图分别作为样
型参数进行微调，可以提高训练效率，同时有利于样
本集，训练出 3 个基于 VGG16 的特征迁移模型；在
本数据量小的情况下的模型训练。
多特征融合模型中，这3个基于VGG16的特征迁移
2.2 多特征融合模型模型的参数不再参与更新，以克服由于模型增大后
由不同的时频变换方法计算得到的不同语图，带来的参数数量增大进而对样本数量需求增大的
可以表征鸟鸣声的不同特征。采用不同的语图样本缺陷。

39 40 41 42 43 44 45 46 47 48 49