Page 44 - 《应用声学》2020年第2期
P. 44
202 2020 年 3 月
对鸣声进行预处理后,分别采用以上 3 种时频 集作为输入时,模型的识别效果不同 [15] 。对同一对
变换方法生成语图,图 1 为棕柳莺的鸣声信号及计 象的不同特征进行融合,得到的特征更全面,有利于
算得到的语图,从上到下依次为鸣声信号的时域波 提高分类的效果。多特征的融合方法直接影响融合
形、STFT语图、Mel语图以及Chirplet语图。 特征的表达能力,目前,常用的多特征融合方法有直
1.4 语图样本集的建立 接叠加、串行或者并行连接以及加权求和等 [11] 。前
两类方法不能体现不同特征的差异性,同时还扩大
利用语图特征进行分类时,选择音节特征作为
了特征的维数,增大了计算量。因此,采用加权求和
输入比选择鸣唱特征的分类效果更好 [15] 。因此,本
的方式,引入权重的概念,表征不同的特征在识别过
文将分割后的鸣声信号继续分帧,得到持续时间为
程中的贡献度。
500 ms 的鸣声信号,计算其对应的语图,保存成大
为了充分利用 3 种语图特征,进一步提升识别
小为 224×224 的彩色图像,作为模型的输入,以通
性能,首先构建 3个不同的基于VGG16的特征迁移
过语图图像特征的差异,实现鸟类物种的识别。最
模型,分别提取 3 种语图的特征。然后,将提取的 3
终计算得到 35 种鸟类的鸣声语图数量如表 1 所示。
种特征进行自适应线性加权,一方面实现基于特征
利用 3 种不同的时频变换对鸣声信号进行计算,便
的融合,另一方面保持特征维度,可以不增加模型参
可得到3个不同的鸣声语图样本集。
数。融合后的特征F 如式(1)所示:
2 多特征融合的鸟类物种识别模型 ∑
3
n n
F = ω y , (1)
2.1 基于VGG16的特征迁移模型 n=1
n
n
DCNN 利用多层卷积层和池化层的组合自主 其中,ω 和 y 分别表示特征 n 相应的权值和特征
学习图像特征,配合全连接层对特征进行分类, 向量。不同的权值可以表征不同的特征在识别过程
3
∑
进而实现图像的识别。DCNN 可以通过局部连接、 中的贡献度,且满足条件 ω = 1。该权值参与
n
权值共享及池化操作等有效地降低网络的复杂 n=1
训练和更新过程,通过迭代自动获得最优的权值。
度,减少训练参数的数目 [5,16] 。VGG16是一种典型
最后,将融合后的特征输出到2个全连接层和1
的 DCNN,由于其在 ImageNet 图片分类中的优异
个 Softmax 输出层组成的分类器中,基于多特征融
性能,在图像识别领域得到了广泛的应用 [17−19] 。
合模型的鸟类物种识别流程如图2所示。
DCNN 的模型的参数随着深度的增大而增加,训练
过程需要输入更多的己标注样本。如果缺乏足够的 ܳྲढ़ᚸՌគѿവی
已标注样本,训练时容易导致过拟合,无法得到有效 ۳̆VGG16ᄊྲढ़
STFTឦڏ ረߦ˸വی1
的识别模型。
Პ Ლ
基于迁移学习的思想,利用预训练好的模型作 ܦ ۳̆VGG16ᄊྲढ़ ᚸ Ѭ ዝ
η Melឦڏ ረߦ˸വی2 Ռ ዝ ྭ
为特征提取器,冻结特征提取模型的参数,训练时不 Ղ ٨ መ
再参与更新,只更新用于分类器的参数,可以大大减 Chirpletឦڏ ۳̆VGG16ᄊྲढ़
ረߦ˸വی3
小对已标注样本的需求量 [20−21] 。本文将鸟鸣声的
识别等效成对鸣声语图的识别,基于 VGG16 模型 图 2 基于多特征融合模型的鸟类物种识别流程
将图像识别问题迁移到基于鸣声语图的鸟类物种 Fig. 2 Procedure of bird species recognition based
识别中。选择ImageNet预训练好的 VGG16模型参 on multi-feature fusion
数作为特征提取模型参数的初始值,通过训练对模
在训练时,先利用 3 种不同的语图分别作为样
型参数进行微调,可以提高训练效率,同时有利于样
本集,训练出 3 个基于 VGG16 的特征迁移模型;在
本数据量小的情况下的模型训练。
多特征融合模型中,这3个基于VGG16的特征迁移
2.2 多特征融合模型 模型的参数不再参与更新,以克服由于模型增大后
由不同的时频变换方法计算得到的不同语图, 带来的参数数量增大进而对样本数量需求增大的
可以表征鸟鸣声的不同特征。采用不同的语图样本 缺陷。