Page 43 - 《应用声学》2020年第2期
P. 43

第 39 卷 第 2 期                 谢将剑等: 多特征融合的鸟类物种识别方法                                           201


             时对每帧信号加窗,以避免分帧后信号两端可能造                                (1) 短时傅里叶变换
             成的不连续性。本文选择帧长为 50 ms,重叠 30%,                          STFT 是最常用的一种时频分析方法,它通过
             窗函数为汉明窗。                                          时间窗内的一段信号来表示某一时刻的信号特征。
                                                               计算得到每一帧的时频矩阵,便可以画出对应的
                      表 1  ICML4B 鸣声信号的信息
                                                               语图。
                Table 1  Detail information of ICML4B
                                                                   (2) 梅尔频域倒谱变换
                bird vocalization signal
                                                                   人耳听到的声音高低与声音的频率并不成线
                             物种                 语图数            性正比关系,通常采用 Mel 频率尺度来模拟人耳的
                  北长尾山雀 Aegithalos caudatus       35                    [13]
                                                               听觉特性        。鸣声信号经过快速傅里叶变换之后,
                  云雀 Alauda arvensis              54
                                                               通过一系列三角形 Mel 频率滤波器组,然后对所有
                  黑额黑雁 Anthus trivialis           39
                  加拿大黑雁 Branta canadensis         30           滤波器输出进行对数运算,再进一步做离散余弦变
                  欧金翅雀 Carduelis chloris          44           换便可得到梅尔倒谱系数(Mel frequency cepstrum
                  短趾旋木雀 Certhia brachydactyla     16
                                                               coefficient, MFCC)。本文计算得到 32 维梅尔倒谱
                  斑尾林鸽 Columba palumbus           39
                                                               系数后,去掉表征平均值的第 0 维,选择余下的 31
                  小嘴乌鸦 Corvus corone              24
                  杜鹃 Cuculus canorus              26           维系数转换成梅尔谱图。
                  大斑啄木鸟 Dendrocopos major         34               (3) 线性调频小波变换
                  黄鹀 Emberiza citrinella          21
                                                                   CT 是一种线性时频表示,可以看成是短时傅
                  欧亚鸲 Erithacus rubecula          29
                                                               里叶变换和小波变换的综合,在表征短时平稳信号
                  苍头燕雀 Fringilla coelebs          24
                  松鸦 Garrulus glandarius          13           时具有明显优势        [14] 。对每一帧信号进行线性调频
                  夜莺 Luscinia megarhynchos        27           小波变换,利用快速 Chirplet 分解算法计算得到小
                  白鹡鸰 Motacilla alba              40           波系数    [14] ,然后利用小波系数生成语图。
                  金黄鹂 Oriolus oriolus             17
                  青山雀 Parus caeruleus             42                 1
                  大山雀 Parus major                 23               ॆʷӑࣨϙ  0
                  沼泽山雀 Parus palustris            37
                  蓝孔雀 Pavo cristatus              41                  0          2    ௑ᫎ/s   4          6
                  环颈雉 Phasianus colchicus         29                               (a) ௑۫ฉॎ
                  红尾鸲 Phoenicurus phoenicurus     37
                  棕柳莺 Phylloscopus collybita      37                20
                  绿啄木鸟 Picus viridis              25               ᮠဋ/kHz  10
                  林岩鹨 Prunella modularis          29                 0
                                                                      0          2           4          6
                  普通鳾 Sitta europaea              35                                  ௑ᫎ/s
                  灰斑鸠 Streptopelia decaocto       48                               (b) STFTឦڏ
                  灰林鴞 Strix aluco                 19
                                                                   ᮠဋ/kHz  10
                  紫翅椋鸟 Sturnus vulgaris           25                20
                  黑顶林莺 Sylvia atricapilla         32
                  鹪鹩 Troglodytes troglodytes      39                 0 0         2           4          6
                                                                                      ௑ᫎ/s
                  乌鸫 Turdus merula                34
                                                                                    (c) Melឦڏ
                  欧歌鸫 Turdus philomelos           41
                  槲鸫 Turdus viscivorus            34                20
                                                                   ᮠဋ/kHz  10
             1.3 鸣声语图的计算                                             0
                                                                      0          2           4          6
                 语图中的鸣声区域可以看成是图片中的特殊                                                  ௑ᫎ/s
             “物体”,通过识别鸣声区域的特征,可以实现鸟鸣声                                             (d) Chirpletឦڏ
             的分类   [3] 。为了得到不同的语图特征,选择了 3 种                                 图 1  棕柳莺的鸣声语图
             时频变换方法计算语图:                                           Fig. 1 Spectrograms of Phylloscopus collybita
   38   39   40   41   42   43   44   45   46   47   48