Page 135 - 《应用声学》2020年第3期
P. 135
第 39 卷 第 3 期 杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究 455
实验表明 VPS-BR 方法识别速度快,鲁棒性高且模 network, GAN)进行图谱特征数据增强,由于GAN
型训练部分易于收敛。并且对 LBP 算子在本文中 能够对于图像数据分布进行有效的学习,对鸟类鸣
的应用,本文提出一种改进的多尺度块中心对称 声谱图而言,不仅保留整体的鸣声能量模式,并且会
(Multi-scale block center symmetric, MBCS) 局部 有细节上的变化,如背景环境噪声的变化,或者鸣
二值模式 (MBCS-LBP)。MBCS-LBP 特征融合了 声边缘声纹的细微变化,这些都能够更好地模拟现
多尺度块局部二值模式 (MB-LBP) [19] 算子与中心 实世界中每一鸣声都不尽相同的情况,在引入GAN
对称局部二值模式 (CS-LBP) 特征算子的特性,以 之后再次进行实验,实验结果表明 GAN 确实学习
进一步降低计算复杂度。而由于大多数鸟类语音 到了有效信息。
识别研究所使用的都是经过筛选的质量好的实验
室录音,或者经过滤波等技术手段进行降噪处理 1 基本原理与模型
后的干净语音,且数据量较少,对于现实世界中所
具有的不同类型的自然噪声、信道噪声和失真等信 1.1 识别原理
息缺失,难以得到有效的模拟。而针对数据集的问 VPS-BR 的识别原理如图 1 所示,主要步骤包
题,本文引入生成对抗网络(Generated-adversarial- 括数据采集、特征提取和鸟类识别3部分。
᧔ᬷ ྲढ़ଢԩ Ლዝគѿ
តನవ ᑟ᧚៨ڏၷੇ ྲढ़ଢԩ គѿፇ౧
ë ì í î
Ѭዝ٨
é
ᝫጷನవ ᑟ᧚៨ڏၷੇ ྲढ़ଢԩ ԠКः
æ ç è ê
图 1 VPS-BR 原理
Fig. 1 The principle of VPS-BR
图 1 中,采集的样本数据分为训练样本与测试 化,并回置参数库,替换原训练所得参数。在此过程
样本。两类不同的样本数据分别经由如图 2 所示 中,后续的特征提取及识别都建立能量图谱的生成
的信号采样、Mel 滤波、色谱图计算、对数能量和 基础之上。参数入库步骤引入人为的纠正与管理,
分贝转换步骤生成相应的 VPS。在特征提取步骤 体现了半监督学习的特性。
中,分别采用 MBCS-LBP 特征和 HOG 特征进行计
ηՂ᧔ನ Melฉ ᓤ៨ڏᝠካ ࠫᑟ᧚ Ѭ᠅ᣁ૱
算,将来自训练样本处理路径 1 ⃝ → 2 ⃝ → 3 ⃝ → 4 ⃝
所获得的特征参数预置入参数库,测试样本经处 图 2 能量谱图生成步骤
理路径 6 ⃝ → ⃝ → ⃝ 获得对应 VPS 特征。VPS Fig. 2 Steps of generating energy spectra
8
7
特征分别用MBCS-LBP和HOG特征进行计算。用
据上述可知,特征提取作为 VPS-BR 鸟类鸣声
MBCS-LBP 特征经过分块计算,再将中心对称化
识别中的重要内容,接下来将详细描述本文所用
计算得到的结果,经组合以直方图形式呈现。用
MBCS-LBP和HOG特征提取算法原理。
HOG 特征经过分块计算梯度值,组合所有块向量
的梯度值后以梯度矩阵形式呈现,具有不同频域或 1.2 MBCS-LBP特征提取
时域变化的鸟鸣声的 VPS 特征将会差异明显。在 本文设计的 MBCS-LBP 特征提取流程如图 3
鸟类识别步骤中,将特征提取步骤所提取的 VPS 所示。生成的VPS分别经由灰度图像转换、Gamma
特征,经由处理路径 4 ⃝ → ⃝ → ⃝ → ⃝ 对输入 标准化、检测窗口扫描、二值量化、直方图统计
4
9
5
的测试样本进行识别。分类器 4 ⃝ 主要可由常规支 和、中心对称统计与直方图拼接步骤生成相应的
持向量机 (Support vector machine, SVM)、K 最近 MBCS-LBP 特征。在检测窗口扫描前,所进行的操
邻(K nearest neighbor, KNN)、随机森林 (Random 作是对 VPS 的预处理。在对检测窗口进行逐个扫
forest, RF) 分类算法实现。识别结果通过自适应判 描的步骤中,分别对每个窗口所对应的扫描图块进
决反馈算法完成鸟鸣声特征向量等参数的自动优 行转换进制的灰度值计算,经中心对称处理后拼接