Page 137 - 《应用声学》2020年第3期
P. 137

第 39 卷 第 3 期            杨春勇等: 融合声纹信息的能量谱图在鸟类识别中的研究                                          457


             进行归一化,最后组合检测空间所有像素块的HOG                           能量谱图,特征差异将较为明显,易于区分。因此,
             特征。                                               本文以淡眉柳莺与宽尾树莺两种鸟类为例,在图 6

                                                               中展示了对二者鸣声进行 LBP特征提取的效果,以
                           नݽ
                                                               及相应的声能谱图特征对比。
                    Ԕݽ៨ڏᣁ૱˞༦एڏϸ           Gammaಖюӑ                 在计算机视觉中,图像边缘特征、平坦特征和
                                                               拐角特征对识别性能有重要作用。借此,将淡眉柳
                        ೝ฾ቔ԰ੳଡ              ᝺ᎶԠ஝
                                                               莺VPS的边缘特征、平坦特征和拐角特征分别展示

                          ௧աੳ       ௧    ጸՌਫ਼దڱՔ᧚               在图6中的子图(a1)、(a2)、(a3)中,并用红色像素点
                          ଡ߹ඌ
                                                               标示;作为对比,将宽尾树莺VPS的3个特征分别展
                          ա
                                                               示在图 6 中的子图 (b1)、(b2)、(b3) 中,也用红色像
                     ࠲ੳଡڱѬ˞ᔪࣰӭЋಫ             ፇౌ
                                                               素点标示。从能谱图直观对比看,淡眉柳莺与宽尾
                          ௧ա                                   树莺的鸣声谱图形状有明显差异。将能量谱图作进
                        ˞తՑʷ˔ӭ        ա   ᝠካӭЋಫ೙ए
                          Ћಫ                                   一步直方图量化,如子图 (a4)、(a5)、(a6) 分别对应
                          ௧                                    淡眉柳莺 VPS 边缘特征、平坦特征和拐角特征这 3
                    ӭЋಫፒᝠጸՌੇڱՔ᧚           ᝠካቇᫎᄰவڏ
                                                               种像素点的LBP直方图。从LBP直方图(b4)、(b5)、
                                                               (b6) 中可以较为明显地观察到,根据不同特征像素
                        ࠫඋएಖюӑ            ግҫᄰவڏઆॖ
                                                               点量化灰度分别在相应能量谱图 (a1)、(a2)、(a3) 中

                         图 5  HOG 特征提取流程                       所占的百分比权重分布,即可确定出此鸟鸣声来自
                   Fig. 5 Steps of HOG feature extraction      淡眉柳莺。同理,子图(b4)、(b5)、(b6)分别对应子图
                                                               (b1)、(b2)、(b3) 特征像素点的 LBP直方图,可看出,
             2 实验结果分析与讨论                                       3 种特征像素点量化灰度百分比权重分布较为明显
                                                               地表征了此鸟鸣声与淡眉柳莺鸣声的差别,可以确
             2.1 样本选取
                                                               定为来自宽尾树莺。因此,鉴于 VPS 中特征灰度在
                 本文样本采自于鸟类识别领域引用较多且较
                                                               整幅谱图中所占的百分比权重有较大的区别,结合
             为权威的网站 Xeno-Canto。该网站收录了世界各
                                                               LBP 直方图,这种差异特征可以用于科属相近鸟类
             地上千种鸟类的几十万条语音样本。通过分析从该
                                                               识别的量化辨识。
             网站下载的部分样本,发现有些鸟类的记录数量较
                                                                   声能谱图中鸟鸣声的边缘特征对识别结果影
             少,也有些鸟类的鸣唱复杂多变,不利于识别验证。
                                                               响较大。根据文献[22–23],HOG特征提取精度与图
             为了减小这些情况对识别实验的影响,本文选取样
                                                               像声纹特征描述精细度呈正相关。如对特征提取精
             本时按照 “同种异域,鸣叫优先” 原则,采集了不含
                                                               度越高,则对谱图的描述程度更好,对图像边缘的
             鸣唱的鸟鸣叫声片段进行实验。不失一般性,为有
                                                               拟合度也越好,识别率就越高。图 7 分别展示了对
             利于开展实验,本文选取了淡眉柳莺、华西柳莺、黄
                                                               9 s 淡眉柳莺鸣声谱图进行 8×8 像素、16×16 像素、
             腹柳莺、宽尾树莺、四声杜鹃、北方中杜鹃、美洲旋
                                                               32×32 像素的 HOG 特征提取实验,相比而言,8×8
             木雀、太平洋鹪鹩、白头鹎、乌鸫、中华鹧鸪、棕北伯
                                                               像素提取精度具有更好的图像声纹特征表述效果。
             劳、麻雀、鸊鷉、花尾榛鸡共15种带标签的鸟鸣声样
                                                               因此综合考虑计算量,在后续的特征对比实验中,将
             本。对每一种鸟,均取 100 个 WAV 格式片段,每个
                                                               扫描块大小设置为 3×3 个单元格,其中每一单元格
             片段用时5 s,共计125 min,每种样本含噪类型及程
                                                               大小设定为 8×8 像素,对每个扫描块的直方图投影
             度不同,与纯净场景下的鸣声识别对比,体现了本文
                                                               设置为9个方向进行实验。
             算法的普适性及鲁棒性。
                                                                   中华鹧鸪与花尾榛鸡科属不同但同属亚鸟纲,
             2.2 特征分析                                          其种群分布范围相近,生活习性也相近。图8展示了
                 淡眉柳莺与宽尾树莺同属莺科,因其种群的地                          淡眉柳莺、中华鹧鸪和花尾榛鸡这 3 种鸟类鸣声的
             理分布范围相近,而且体态较小,难以从远距离进行                           HOG 特征提取效果及其声能谱图特征对比。子图
             人工辨识。据前述原理,若将二者的鸣声信号转为                            (a1)、(b1)、(c1)分别为淡眉柳莺、中华鹧鸪和花尾榛
   132   133   134   135   136   137   138   139   140   141   142