Page 43 - 《应用声学》2020年第2期
P. 43
第 39 卷 第 2 期 谢将剑等: 多特征融合的鸟类物种识别方法 201
时对每帧信号加窗,以避免分帧后信号两端可能造 (1) 短时傅里叶变换
成的不连续性。本文选择帧长为 50 ms,重叠 30%, STFT 是最常用的一种时频分析方法,它通过
窗函数为汉明窗。 时间窗内的一段信号来表示某一时刻的信号特征。
计算得到每一帧的时频矩阵,便可以画出对应的
表 1 ICML4B 鸣声信号的信息
语图。
Table 1 Detail information of ICML4B
(2) 梅尔频域倒谱变换
bird vocalization signal
人耳听到的声音高低与声音的频率并不成线
物种 语图数 性正比关系,通常采用 Mel 频率尺度来模拟人耳的
北长尾山雀 Aegithalos caudatus 35 [13]
听觉特性 。鸣声信号经过快速傅里叶变换之后,
云雀 Alauda arvensis 54
通过一系列三角形 Mel 频率滤波器组,然后对所有
黑额黑雁 Anthus trivialis 39
加拿大黑雁 Branta canadensis 30 滤波器输出进行对数运算,再进一步做离散余弦变
欧金翅雀 Carduelis chloris 44 换便可得到梅尔倒谱系数(Mel frequency cepstrum
短趾旋木雀 Certhia brachydactyla 16
coefficient, MFCC)。本文计算得到 32 维梅尔倒谱
斑尾林鸽 Columba palumbus 39
系数后,去掉表征平均值的第 0 维,选择余下的 31
小嘴乌鸦 Corvus corone 24
杜鹃 Cuculus canorus 26 维系数转换成梅尔谱图。
大斑啄木鸟 Dendrocopos major 34 (3) 线性调频小波变换
黄鹀 Emberiza citrinella 21
CT 是一种线性时频表示,可以看成是短时傅
欧亚鸲 Erithacus rubecula 29
里叶变换和小波变换的综合,在表征短时平稳信号
苍头燕雀 Fringilla coelebs 24
松鸦 Garrulus glandarius 13 时具有明显优势 [14] 。对每一帧信号进行线性调频
夜莺 Luscinia megarhynchos 27 小波变换,利用快速 Chirplet 分解算法计算得到小
白鹡鸰 Motacilla alba 40 波系数 [14] ,然后利用小波系数生成语图。
金黄鹂 Oriolus oriolus 17
青山雀 Parus caeruleus 42 1
大山雀 Parus major 23 ॆʷӑࣨϙ 0
沼泽山雀 Parus palustris 37
蓝孔雀 Pavo cristatus 41 0 2 ᫎ/s 4 6
环颈雉 Phasianus colchicus 29 (a) ۫ฉॎ
红尾鸲 Phoenicurus phoenicurus 37
棕柳莺 Phylloscopus collybita 37 20
绿啄木鸟 Picus viridis 25 ᮠဋ/kHz 10
林岩鹨 Prunella modularis 29 0
0 2 4 6
普通鳾 Sitta europaea 35 ᫎ/s
灰斑鸠 Streptopelia decaocto 48 (b) STFTឦڏ
灰林鴞 Strix aluco 19
ᮠဋ/kHz 10
紫翅椋鸟 Sturnus vulgaris 25 20
黑顶林莺 Sylvia atricapilla 32
鹪鹩 Troglodytes troglodytes 39 0 0 2 4 6
ᫎ/s
乌鸫 Turdus merula 34
(c) Melឦڏ
欧歌鸫 Turdus philomelos 41
槲鸫 Turdus viscivorus 34 20
ᮠဋ/kHz 10
1.3 鸣声语图的计算 0
0 2 4 6
语图中的鸣声区域可以看成是图片中的特殊 ᫎ/s
“物体”,通过识别鸣声区域的特征,可以实现鸟鸣声 (d) Chirpletឦڏ
的分类 [3] 。为了得到不同的语图特征,选择了 3 种 图 1 棕柳莺的鸣声语图
时频变换方法计算语图: Fig. 1 Spectrograms of Phylloscopus collybita