Page 46 - 《应用声学》2020年第2期
P. 46

204                                                                                  2020 年 3 月


             率要更高。而且对比单一特征模型,融合模型的最                            而影响识别模型的性能。为了研究语图持续时间对
             大MAP值也最大。                                         识别性能的影响,选择持续时间为 100 ms、300 ms
                 图 5 为 4 种模型的平均识别准确率对比,图中                      和 500 ms,分别计算得到 3 个语图样本集。按照本
             的MAP值均为5次运算的MAP平均值。                               文提出的建模方法得到不同持续时间下的单一特
                                                               征模型和融合模型。
                   1.0
                                                                   图6为不同持续时间时,不同模型的测试MAP
                   0.8
                                                               对比。
                  MAP  0.6                                         从图 6 可以看出,语图持续时间不同时,对于
                   0.4                                         同一个模型,持续时间为 300 ms 的 MAP 值最大,
                                               Ch
                                               Mel             100 ms 的最小,而且 4 种模型的变化规律一致。进
                   0.2                         Spe
                                               Fuse            一步对 35 种鸟类鸟鸣声的音节持续时间进行了统
                    0
                     0    50   100  150   200  250  300        计分析,得到了不同持续时间的音节数量分布如
                                   ᤖ̽൓஝
                                                               图 7 所示,71.7% 的音节持续时间在 100 ∼ 300 ms
                图 4  不同模型的验证 MAP 随着迭代次数的变化                     之间。
               Fig. 4 Variation of validation MAPs with epochs         1.0
                                                                            100  300  500
               increasing
                                                                       0.8
                     1.0                                               0.6
                           ᰎ᝽    ฾ត            0.905 0.8943          MAP
                     0.8                                               0.4
                        0.6886 0.6702
                                0.629  0.599  0.5984  0.5803
                     0.6
                   MAP                                                 0.2
                     0.4                                                0
                                                                            Ch     Mel     Spe    Fuse
                     0.2
                                                                  图 6  不同持续时间语图下不同模型的测试 MAP
                      0                                           对比
                          Ch      Mel    Spe     Fuse
                                                                  Fig. 6 Comparison of test MAP with different
                 图 5  不同模型的验证 MAP 和测试 MAP 对比                      model and duration
               Fig. 5 Comparison of validation MAP and test
                                                                      100
               MAP with different model
                                                                                     86
                                                                       80
                 从图5可以看出:(1) 单一特征模型中,Chirplet
                                                                       60         58
             语图作为输入时的 MAP 时最大,STFT 语图的                                ஝᧚
             MAP 最小,和文献 [14] 相吻合;(2) 通过多特征                             40     31
                                                                                         25
             融合后,融合模型的 MAP 较单一特征模型提升较                                  20                    17
                                                                          9                      11  7
             大,相比STFT语图的提升了30%左右。                                      0
                 综上所述,将不同特征进行融合,再利用分类                                   50~100 100~150 150~200 200~300 300~350 350~400 400~450 450~500
             器来进行分类的方法可以大大提高模型的识别能                                                  ે፞௑ᫎ/ms
             力,说明本文提出的多特征融合模型是可行的。同
                                                                        图 7  不同持续时间的音节数量分布
             时本文提出的融合模型中,待训练的参数只包含分
                                                                  Fig. 7 Distribution of syllable quantity with dif-
             类器的参数,参数数量相对于 VGG16 模型大大减                            ferent duration
             少,可以降低对样本数量的需求。
                                                                   依据统计结果分析可得,持续时间为300 ms时
             3.3 语图不同持续时间的性能对比                                 效果最佳的原因在于:本文提出的方法是基于语图
                 输入DCNN的图像大小是固定的,选择不同的                         中鸟鸣声区域的图像特征实现语图的分类,达到识
             语图持续时间,会改变语图中鸟鸣声区域的特征,进                           别鸟类物种的目的。因此图像当中鸟鸣声区域的完
   41   42   43   44   45   46   47   48   49   50   51