Page 135 - 《应用声学》2020年第3期
P. 135

第 39 卷 第 3 期            杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究                                          455


             实验表明 VPS-BR 方法识别速度快,鲁棒性高且模                        network, GAN)进行图谱特征数据增强,由于GAN
             型训练部分易于收敛。并且对 LBP 算子在本文中                          能够对于图像数据分布进行有效的学习,对鸟类鸣
             的应用,本文提出一种改进的多尺度块中心对称                             声谱图而言,不仅保留整体的鸣声能量模式,并且会
             (Multi-scale block center symmetric, MBCS) 局部     有细节上的变化,如背景环境噪声的变化,或者鸣
             二值模式 (MBCS-LBP)。MBCS-LBP 特征融合了                    声边缘声纹的细微变化,这些都能够更好地模拟现

             多尺度块局部二值模式 (MB-LBP)             [19]  算子与中心       实世界中每一鸣声都不尽相同的情况,在引入GAN
             对称局部二值模式 (CS-LBP) 特征算子的特性,以                       之后再次进行实验,实验结果表明 GAN 确实学习
             进一步降低计算复杂度。而由于大多数鸟类语音                             到了有效信息。
             识别研究所使用的都是经过筛选的质量好的实验
             室录音,或者经过滤波等技术手段进行降噪处理                             1 基本原理与模型
             后的干净语音,且数据量较少,对于现实世界中所
             具有的不同类型的自然噪声、信道噪声和失真等信                            1.1  识别原理
             息缺失,难以得到有效的模拟。而针对数据集的问                                VPS-BR 的识别原理如图 1 所示,主要步骤包
             题,本文引入生成对抗网络(Generated-adversarial-               括数据采集、特征提取和鸟类识别3部分。


                                ஝૶᧔ᬷ                 ྲढ़ଢԩ                     Ლዝគѿ
                                ฾តನవ        ᑟ᧚៨ڏၷੇ          ྲढ़ଢԩ                    គѿፇ౧
                                  ë             ì             í                       î
                                                                         Ѭዝ٨
                                                                          é
                                ᝫጷನవ        ᑟ᧚៨ڏၷੇ          ྲढ़ଢԩ                    Ԡ஝Кः
                                  æ             ç             è                       ê
                                                     图 1  VPS-BR 原理
                                               Fig. 1 The principle of VPS-BR
                 图 1 中,采集的样本数据分为训练样本与测试                        化,并回置参数库,替换原训练所得参数。在此过程
             样本。两类不同的样本数据分别经由如图 2 所示                           中,后续的特征提取及识别都建立能量图谱的生成
             的信号采样、Mel 滤波、色谱图计算、对数能量和                          基础之上。参数入库步骤引入人为的纠正与管理,
             分贝转换步骤生成相应的 VPS。在特征提取步骤                           体现了半监督学习的特性。
             中,分别采用 MBCS-LBP 特征和 HOG 特征进行计
                                                                   ηՂ᧔ನ    Mel໚ฉ   ᓤ៨ڏᝠካ    ࠫ஝ᑟ᧚   Ѭ᠅ᣁ૱
             算,将来自训练样本处理路径 1 ⃝ → 2 ⃝ → 3 ⃝ → 4 ⃝
             所获得的特征参数预置入参数库,测试样本经处                                          图 2  能量谱图生成步骤

             理路径 6 ⃝ → ⃝ → ⃝ 获得对应 VPS 特征。VPS                         Fig. 2 Steps of generating energy spectra
                                 8
                          7
             特征分别用MBCS-LBP和HOG特征进行计算。用
                                                                   据上述可知,特征提取作为 VPS-BR 鸟类鸣声
             MBCS-LBP 特征经过分块计算,再将中心对称化
                                                               识别中的重要内容,接下来将详细描述本文所用
             计算得到的结果,经组合以直方图形式呈现。用
                                                               MBCS-LBP和HOG特征提取算法原理。
             HOG 特征经过分块计算梯度值,组合所有块向量
             的梯度值后以梯度矩阵形式呈现,具有不同频域或                            1.2  MBCS-LBP特征提取
             时域变化的鸟鸣声的 VPS 特征将会差异明显。在                              本文设计的 MBCS-LBP 特征提取流程如图 3
             鸟类识别步骤中,将特征提取步骤所提取的 VPS                           所示。生成的VPS分别经由灰度图像转换、Gamma
             特征,经由处理路径 4 ⃝ → ⃝ → ⃝ → ⃝ 对输入                     标准化、检测窗口扫描、二值量化、直方图统计
                                                  4
                                      9
                                            5
             的测试样本进行识别。分类器 4 ⃝ 主要可由常规支                         和、中心对称统计与直方图拼接步骤生成相应的
             持向量机 (Support vector machine, SVM)、K 最近           MBCS-LBP 特征。在检测窗口扫描前,所进行的操
             邻(K nearest neighbor, KNN)、随机森林 (Random           作是对 VPS 的预处理。在对检测窗口进行逐个扫
             forest, RF) 分类算法实现。识别结果通过自适应判                     描的步骤中,分别对每个窗口所对应的扫描图块进
             决反馈算法完成鸟鸣声特征向量等参数的自动优                             行转换进制的灰度值计算,经中心对称处理后拼接
   130   131   132   133   134   135   136   137   138   139   140