Page 167 - 《应用声学》2023年第4期
P. 167
第 42 卷 第 4 期 李大鹏等: 基于 Mel 频谱值和深度学习网络的鸟声识别算法 829
模块中采用扩张卷积来代替传统的CNN,在特征提 列的未来信息。然后将前向层和后向层的隐藏状态
取过程中不丢失信息和增加计算量的情况下获得 连接起来,得到单个序列的隐藏状态,作为BiLSTM
更大的感受野。扩张卷积的结构比较简单,通过在 隐藏层的输出。
标准卷积中增加空洞的方式,实现感受野的扩大。
2 实验设置与分析
如图 4 所示,在标准卷积行列权值中插入 r − 1 个值
为0的权值,γ 为扩张率,其感受野的计算公式如下:
2.1 鸟声数据库
( )
j−1
∏ 为了验证模型的有效性,本文选用的鸟类鸣声
l j = l j−1 + (f j − 1) ∗ s i , (9)
声频文件均来自 Birdsdata 手工标注自然声音标准
i=1
其中,j 表示卷积层序号,l j 为第 j 个卷积层的感受 大数据集 [22] ,该数据集由百鸟数据科技有限责任公
野大小,f j 表示该层卷积核尺寸,s i 表示卷积步长 司发布,其公开部分共收集了中国常见鸟种 20 种,
大小。 该数据集共有进行过 2 s 标准化切割的 44.1 kHz、
wav声频文件 14311个,各类鸟鸣声文件数量如表 1
所示。
表 1 北京百鸟数据库
Table 1 Birdsdata
物种名称 数量 物种名称 数量
(a) ̄፥ಖюԄሥ (b) ̄፥ੱसԄሥ(r=2)
麻雀 1195 普通鸬鹚 852
林鹬 825 苍鹭 850
图 4 标准卷积与扩张卷积示意图
红脚鹬 790 红喉潜鸟 835
Fig. 4 Schematic diagram of standard convolution
白腰草鹬 710 雉鸡 797
and dilation convolution
凤头麦鸡 814 西鹌鹑 738
黑翅长脚鹬 786 灰山鹑 29
扩张卷积残差注意力网络主要的特征提取
骨顶鸡 460 绿翅鸭 602
部分由扩张卷积层 (DiltedCNN)、批量归一化层 西方秧鸡 680 绿头鸭 766
(Batch normalization, BN)和RELU层组成扩张卷 欧亚鵟 290 大天鹅 800
积单元。由于扩张卷积层的存在,可以在不使用池 苍鹰 733 灰雁 759
化层的情况下获得更大的感受野,提取局部特征。 由于数据库中灰山鹑数量过少,实验中删除该
BN 层对特征进行归一化处理,提高结构的性能和 鸟类,采用19种鸟类,共计14282个声频文件。
稳定性。
2.2 实验设置
1.4 BiLSTM
本文网络模型的搭建采用谷歌公司发布的基
LSTM 模型是一种改进的时间递归神经网络, 于TensorFlow 2.4.0的Keras2.4.3深度学习框架,硬
解决了循环神经网络梯度爆炸和梯度消失的问 件环境租用MistGPU平台的NVIDIA RTX 2080Ti
题 [20] 。LSTM 在时间序列信息处理中得到了广泛 显卡。模型训练的参数如表2所示。
的应用,尤其在声频领域 [5,21] 。LSTM 可以选择性
表 2 训练参数
地学习长期信息序列信息,拥有 3 个” 门” 对信息进
Table 2 Train parameters
行控制,即输入门、输出门和遗忘门,遗忘门根据输
入和前次输出来帮助模型遗忘一些无用的信息。 参数类型 值或方法
鸟鸣声信号是一种时序信号,具有动态特性,而 优化器 Adam
batch_size 32
LSTM 内部的循环机制使其具有对时序序列的记
最大训练次数 100
忆能力,能综合考虑时序序列前后帧特征之间的联
学习率 0.0001
系。本文使用 BiLSTM,结合前向信息和后向信息,
损失函数 交叉熵函数
其中,前向层捕获序列的历史信息;后向层捕获序