Page 41 - 《应用声学》2020年第2期
P. 41

第 39 卷 第 2 期                                                                       Vol. 39, No. 2
             2020 年 3 月                          Journal of Applied Acoustics                    March, 2020

             ⋄ 研究报告 ⋄



                             多特征融合的鸟类物种识别方法                                               ∗




                                谢将剑     1,2†   杨 俊    1   邢照亮      3  张 卓     3   陈 新    3



                                               (1  北京林业大学工学院      北京  100083)
                                     (2  林业装备与自动化国家林业和草原局重点实验室             北京   100083)
                                (3  先进输电技术国家重点实验室 (全球能源互联网研究院有限公司)              北京   102211)
                摘要:深度学习输入特征的选择直接影响其分类性能,为了进一步提高基于深度学习的鸟类物种识别模型的
                分类性能,该文提出一种多特征融合识别方法。该方法首先通过短时傅里叶变换、梅尔倒谱变换和线性调频小
                波变换分别计算得到鸣声信号的 3 种语图样本集,然后分别利用 3 种语图样本集训练 3 个基于 VGG16 迁移的
                单一特征模型,将 3 个模型的输出进行自适应加权求和实现融合,并修正了加权交叉熵函数以克服样本不平衡
                的问题,最后对语图进行分类实现鸟类物种的识别。以 ICML4B 鸣声库的 35 种鸟类为研究对象,对比了 4 种
                模型的平均识别准确率 (MAP),结果表明特征融合模型较单一特征模型的 MAP 最大提高了 0.307;选择输入
                语图的持续时间分别为 100 ms、300 ms 以及 500 ms,对比不同持续时间下 4 种模型的测试 MAP 值,结果表明
                持续时间为 300 ms 时 4 种模型的 MAP 值均为最高;对比了不同信噪比下 4 种模型的识别效果,多特征融合模
                型的识别准确率随着信噪比的下降降低最少。说明在选择合适的语图持续时间后,该文提出的特征融合模型
                能得到更高的识别准确率,具有一定的抗噪能力,且训练参数少,更适合于少样本鸟类的识别。
                关键词:鸟类物种识别;深度卷积神经网络;多特征融合
                中图法分类号: TP181           文献标识码: A          文章编号: 1000-310X(2020)02-0199-08
                DOI: 10.11684/j.issn.1000-310X.2020.02.005


                        Bird species recognition method based on multi-feature fusion


                       XIE Jiangjian 1,2  YANG Jun 1  XING Zhaoliang 3  ZHANG Zhuo   3  CHEN Xin  3
                                (1 School of Technology, Beijing Forestry University, Beijing 100083, China)
             (2 Key Lab of National Forestry and Grassland Administration for Forestry Equipment and Automation, Beijing 100083, China)
               (3 State Key Laboratory of Advanced Transmission Technology, Global Energy Interconnection Research Institute Co. Ltd.,
                                                    Beijing 102211, China)

                 Abstract: The choice of input feature directly affects the classification performance of the deep learning, a
                 multi-feature fusion recognition method was proposed to improve the classification performance of the bird
                 species recognition model. In this method, firstly three kinds of spectrogram samples of vocalization signals were
                 calculated through short time Fourier transform, Mel-frequency cepstrum transform and Chirplet transform
                 respectively, then three single feature models which based on VGG16 transfer learning were trained using these
                 three kinds of spectrogram samples accordingly, modified weighted cross entropy function was used to fix the
                 problem of imbalanced data set, the outputs of three models were fused to classify the spectrograms and realize


             2019-06-16 收稿; 2019-11-28 定稿
             国家自然科学基金资助项目 (31670553), 国家电网公司科技项目 (SGGR0000WLJS1801082), 国家重点研发项目 (2017YFC1403503),
             ∗
             中央高校基本科研业务费专项 (2016ZCQ08)
             作者简介: 谢将剑 (1988– ), 男, 江西鹰潭人, 博士, 副教授, 研究方向: 深度学习在林业生态环境检测中的应用。
             † 通信作者 E-mail: shyneforce@bjfu.edu.cn
   36   37   38   39   40   41   42   43   44   45   46