Page 137 - 《应用声学》2020年第3期
P. 137
第 39 卷 第 3 期 杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究 457
进行归一化,最后组合检测空间所有像素块的HOG 能量谱图,特征差异将较为明显,易于区分。因此,
特征。 本文以淡眉柳莺与宽尾树莺两种鸟类为例,在图 6
中展示了对二者鸣声进行 LBP特征提取的效果,以
नݽ
及相应的声能谱图特征对比。
Ԕݽ៨ڏᣁ૱˞༦एڏϸ Gammaಖюӑ 在计算机视觉中,图像边缘特征、平坦特征和
拐角特征对识别性能有重要作用。借此,将淡眉柳
ೝቔੳଡ ᎶԠ
莺VPS的边缘特征、平坦特征和拐角特征分别展示
௧աੳ ௧ ጸՌਫ਼దڱՔ᧚ 在图6中的子图(a1)、(a2)、(a3)中,并用红色像素点
ଡ߹ඌ
标示;作为对比,将宽尾树莺VPS的3个特征分别展
ա
示在图 6 中的子图 (b1)、(b2)、(b3) 中,也用红色像
࠲ੳଡڱѬ˞ᔪࣰӭЋಫ ፇౌ
素点标示。从能谱图直观对比看,淡眉柳莺与宽尾
௧ա 树莺的鸣声谱图形状有明显差异。将能量谱图作进
˞తՑʷ˔ӭ ա ᝠካӭЋಫए
Ћಫ 一步直方图量化,如子图 (a4)、(a5)、(a6) 分别对应
௧ 淡眉柳莺 VPS 边缘特征、平坦特征和拐角特征这 3
ӭЋಫፒᝠጸՌੇڱՔ᧚ ᝠካቇᫎᄰவڏ
种像素点的LBP直方图。从LBP直方图(b4)、(b5)、
(b6) 中可以较为明显地观察到,根据不同特征像素
ࠫඋएಖюӑ ግҫᄰவڏઆॖ
点量化灰度分别在相应能量谱图 (a1)、(a2)、(a3) 中
图 5 HOG 特征提取流程 所占的百分比权重分布,即可确定出此鸟鸣声来自
Fig. 5 Steps of HOG feature extraction 淡眉柳莺。同理,子图(b4)、(b5)、(b6)分别对应子图
(b1)、(b2)、(b3) 特征像素点的 LBP直方图,可看出,
2 实验结果分析与讨论 3 种特征像素点量化灰度百分比权重分布较为明显
地表征了此鸟鸣声与淡眉柳莺鸣声的差别,可以确
2.1 样本选取
定为来自宽尾树莺。因此,鉴于 VPS 中特征灰度在
本文样本采自于鸟类识别领域引用较多且较
整幅谱图中所占的百分比权重有较大的区别,结合
为权威的网站 Xeno-Canto。该网站收录了世界各
LBP 直方图,这种差异特征可以用于科属相近鸟类
地上千种鸟类的几十万条语音样本。通过分析从该
识别的量化辨识。
网站下载的部分样本,发现有些鸟类的记录数量较
声能谱图中鸟鸣声的边缘特征对识别结果影
少,也有些鸟类的鸣唱复杂多变,不利于识别验证。
响较大。根据文献[22–23],HOG特征提取精度与图
为了减小这些情况对识别实验的影响,本文选取样
像声纹特征描述精细度呈正相关。如对特征提取精
本时按照 “同种异域,鸣叫优先” 原则,采集了不含
度越高,则对谱图的描述程度更好,对图像边缘的
鸣唱的鸟鸣叫声片段进行实验。不失一般性,为有
拟合度也越好,识别率就越高。图 7 分别展示了对
利于开展实验,本文选取了淡眉柳莺、华西柳莺、黄
9 s 淡眉柳莺鸣声谱图进行 8×8 像素、16×16 像素、
腹柳莺、宽尾树莺、四声杜鹃、北方中杜鹃、美洲旋
32×32 像素的 HOG 特征提取实验,相比而言,8×8
木雀、太平洋鹪鹩、白头鹎、乌鸫、中华鹧鸪、棕北伯
像素提取精度具有更好的图像声纹特征表述效果。
劳、麻雀、鸊鷉、花尾榛鸡共15种带标签的鸟鸣声样
因此综合考虑计算量,在后续的特征对比实验中,将
本。对每一种鸟,均取 100 个 WAV 格式片段,每个
扫描块大小设置为 3×3 个单元格,其中每一单元格
片段用时5 s,共计125 min,每种样本含噪类型及程
大小设定为 8×8 像素,对每个扫描块的直方图投影
度不同,与纯净场景下的鸣声识别对比,体现了本文
设置为9个方向进行实验。
算法的普适性及鲁棒性。
中华鹧鸪与花尾榛鸡科属不同但同属亚鸟纲,
2.2 特征分析 其种群分布范围相近,生活习性也相近。图8展示了
淡眉柳莺与宽尾树莺同属莺科,因其种群的地 淡眉柳莺、中华鹧鸪和花尾榛鸡这 3 种鸟类鸣声的
理分布范围相近,而且体态较小,难以从远距离进行 HOG 特征提取效果及其声能谱图特征对比。子图
人工辨识。据前述原理,若将二者的鸣声信号转为 (a1)、(b1)、(c1)分别为淡眉柳莺、中华鹧鸪和花尾榛