Page 42 - 《应用声学》2020年第2期
P. 42
200 2020 年 3 月
the recognition of bird species. Taken the 35 kinds of bird in ICML4B database for study subject, the MAPs
were compared, results show that the mean average precision (MAP) of feature fusion model is highest increased
by 0.307 contrast to the single feature model; Three spectrogram durations, 100 ms, 300 ms and 500 ms were
chosen to compare the test MAP of four models, the results reveal that the 300 ms duration is the best; the
precision of 4 models with different SNR were compared, the precision reduction of feature fusion model as the
SNR decreased is the least. The proposed model can achieve better performance with suitable duration, have
anti-noise ability in some degree, and the trainable parameters are less, which is more suitable for birds with
little samples.
Keywords: Bird species recognition; Deep convolutional neural networks; Multi-feature fusion
Fourier transform, STFT)、梅尔倒谱变换(Mel fre-
0 引言
quency cepstrum transform, MFCT)和线性调频小
波变换 (Chirplet transform, CT) 分别计算得到鸣
鸟类鸣声具有一定的稳定性和明显的物种鉴
声信号的语图,基于 3 种语图样本集分别训练 3 个
别特征,是鸟类物种识别的主要方式之一 [1] 。利用
基于 VGG16 迁移的单一特征模型,并利用自适应
鸟鸣声语图中鸣声区域的图像特征可以区分鸟类
线性加权对 3 种特征进行融合,最终基于融合特征
物种 [2−3] ,进而应用于鸟类物种的调查与监测,具有
实现鸟类物种的识别。以鸣声库ICML4B的鸟鸣声
高效率、非损伤、低干扰、大范围等优势,应用前景巨
为研究对象,通过对比实验验证了本文提出模型的
大 [4] 。基于鸣声的鸟类物种识别的关键在于提取合
优越性。
适的鸟鸣声差异特征、选择高性能的分类器对差异
特征进行分类。深度学习具有较强的自动学习特征
1 鸟鸣声语图样本集
和进行分类的能力 [5−6] ,在基于鸣声的鸟类物种识
别方法中得到了广泛的研究。Chakraborty 等 [7] 利 1.1 鸟鸣声信息
用深度神经网络(Deep neural network, DNN)采用
本文采用的鸣声库是法国国立自然博物馆提
音频信号的梅尔滤波能量系数作为输入,实现了基
供的 ICML4B 鸣声库。该鸣声库共包含 35 种鸟类
于鸣叫的鸟类识别,最佳识别准确率达到 98.48%。
鸣声,具体的物种信息如表 1 所示。每种鸟类各包
Piczak [8] 以音频信号的梅尔频域谱图为输入,对比
含 1 个音频信号。每个鸣声音频信号均为持续时间
了 3 种不同结构的深度卷积神经网络 (Deep convo-
30 s、采样频率 44.1 kHz、16 bit 输出、WAV 格式的
lutional neural network, DCNN)的识别效果,结果
数字信号,信噪比在20 ∼ 60 dB之间 [12] 。
表明输入谱图的大小、网络的层数以及网络结构都
会对识别效果产生影响。Martinsson [9] 利用18层的 1.2 鸣声信号的处理
深度残差神经网络 (Deep residual neural network, 鸣声信号的预处理主要包括预加重、分割、分
DRNN)对BirdCLEF竞赛的鸣声样本进行识别,平 帧以及加窗。预加重用于补偿鸟鸣声在传播时高频
均识别精度达到 53.8%,相比官方提供的深度卷积 成分的衰减,采用一阶高通滤波器来实现,预加重系
网络识别方法低 2%。谢将剑等 [10] 研究了 3 种不同 数取0.95。
语图作为输入时,利用 VGG16 模型进行鸟类物种 ICML4B 鸣声库中鸟鸣声信号的信噪比较高,
识别的性能,结果表明基于线性调频小波变换生成 采用能量阈值法对鸣声进行分割。分割前需要对信
的语图作为输入,相比其他语图作输入时,识别准确 号进行无重叠的分帧,为了最大限度保留鸣声信号,
率和效率都得到了改善。以上研究表明,选择合适 帧长选择为50 ms。计算每帧信号的能量后,将能量
的语图作为输入、DCNN 作为识别模型,可以得到 大于最大能量 60%的帧认为是鸣声区域,予以保留,
较好的识别性能。 去除其他非鸣声区域,实现鸣声信号的分割,使各有
通过多特征融合可以提高模型的分类性能 [11] , 效鸣声段连续,同时可以降低背景噪声的影响。
本文提出一种基于深度卷积神经网络的多特征融 鸣声信号是一种典型非平稳随机信号,在对分
合模型,该模型利用短时傅里叶变换 (Short-time 割后的信号进行时频变换前,需要对信号分帧。同