Page 167 - 《应用声学》2023年第4期
P. 167

第 42 卷 第 4 期           李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法                                       829


             模块中采用扩张卷积来代替传统的CNN,在特征提                           列的未来信息。然后将前向层和后向层的隐藏状态
             取过程中不丢失信息和增加计算量的情况下获得                             连接起来,得到单个序列的隐藏状态,作为BiLSTM
             更大的感受野。扩张卷积的结构比较简单,通过在                            隐藏层的输出。
             标准卷积中增加空洞的方式,实现感受野的扩大。
                                                               2 实验设置与分析
             如图 4 所示,在标准卷积行列权值中插入 r − 1 个值
             为0的权值,γ 为扩张率,其感受野的计算公式如下:
                                                               2.1  鸟声数据库
                                (              )
                                          j−1
                                           ∏                       为了验证模型的有效性,本文选用的鸟类鸣声
                     l j = l j−1 +  (f j − 1) ∗  s i  ,  (9)
                                                               声频文件均来自 Birdsdata 手工标注自然声音标准
                                          i=1
             其中,j 表示卷积层序号,l j 为第 j 个卷积层的感受                     大数据集     [22] ,该数据集由百鸟数据科技有限责任公
             野大小,f j 表示该层卷积核尺寸,s i 表示卷积步长                      司发布,其公开部分共收集了中国常见鸟种 20 种,
             大小。                                               该数据集共有进行过 2 s 标准化切割的 44.1 kHz、
                                                               wav声频文件 14311个,各类鸟鸣声文件数量如表 1
                                                               所示。

                                                                             表 1  北京百鸟数据库
                                                                             Table 1 Birdsdata

                                                                       物种名称       数量     物种名称       数量
                    (a) ̄፥ಖюԄሥ       (b) ̄፥ੱसԄሥ(r=2)
                                                                        麻雀        1195   普通鸬鹚       852
                                                                        林鹬        825      苍鹭       850
                      图 4  标准卷积与扩张卷积示意图
                                                                       红脚鹬        790    红喉潜鸟       835
               Fig. 4 Schematic diagram of standard convolution
                                                                       白腰草鹬       710      雉鸡       797
               and dilation convolution
                                                                       凤头麦鸡       814     西鹌鹑       738
                                                                      黑翅长脚鹬       786     灰山鹑       29
                 扩张卷积残差注意力网络主要的特征提取
                                                                       骨顶鸡        460     绿翅鸭       602
             部分由扩张卷积层 (DiltedCNN)、批量归一化层                               西方秧鸡       680     绿头鸭       766
             (Batch normalization, BN)和RELU层组成扩张卷                      欧亚鵟        290     大天鹅       800
             积单元。由于扩张卷积层的存在,可以在不使用池                                     苍鹰        733      灰雁       759
             化层的情况下获得更大的感受野,提取局部特征。                                由于数据库中灰山鹑数量过少,实验中删除该
             BN 层对特征进行归一化处理,提高结构的性能和                           鸟类,采用19种鸟类,共计14282个声频文件。
             稳定性。
                                                               2.2  实验设置
             1.4 BiLSTM
                                                                   本文网络模型的搭建采用谷歌公司发布的基
                 LSTM 模型是一种改进的时间递归神经网络,                        于TensorFlow 2.4.0的Keras2.4.3深度学习框架,硬
             解决了循环神经网络梯度爆炸和梯度消失的问                              件环境租用MistGPU平台的NVIDIA RTX 2080Ti
             题  [20] 。LSTM 在时间序列信息处理中得到了广泛                     显卡。模型训练的参数如表2所示。
             的应用,尤其在声频领域           [5,21] 。LSTM 可以选择性
                                                                               表 2   训练参数
             地学习长期信息序列信息,拥有 3 个” 门” 对信息进
                                                                          Table 2 Train parameters
             行控制,即输入门、输出门和遗忘门,遗忘门根据输
             入和前次输出来帮助模型遗忘一些无用的信息。                                          参数类型           值或方法
                 鸟鸣声信号是一种时序信号,具有动态特性,而                                      优化器             Adam
                                                                           batch_size         32
             LSTM 内部的循环机制使其具有对时序序列的记
                                                                          最大训练次数             100
             忆能力,能综合考虑时序序列前后帧特征之间的联
                                                                            学习率             0.0001
             系。本文使用 BiLSTM,结合前向信息和后向信息,
                                                                            损失函数           交叉熵函数
             其中,前向层捕获序列的历史信息;后向层捕获序
   162   163   164   165   166   167   168   169   170   171   172