Page 15 - 201901
P. 15
第 38 卷 第 1 期 郭洋等: 复合深度神经网络在直升机声目标识别中的研究 11
l
l
l
特征图X 表示为 [13] c = f ◦ c l + i ◦ z , (4)
l
l
t t t−1 t t
l
l
l
l
X = S(X l−1 ), (2) h = o ◦ tanh(c ), (5)
t
t
t
l
其中,S 为下采样规则,本文采用最大池化的下采样 其中,h 表示隐藏层在时间步的输出;i、f、o、c 分
t
规则。 别表示输入门、遗忘门、输出门和记忆单元;W 、b分
线谱在短时谱图的相邻时频单元中通常表现 别表示网络通过训练得到的权值矩阵和偏置;sigm、
为局部最大值。最大池化操作选取特征的局部最大 tanh分别表示非线性Sigmoid、Tanh激活函数;◦ 表
值,可得到在该局部的线谱特征。为了更好地追踪 示矩阵点乘。
l
l
线谱的变化,结合目标声信号频谱特点,对卷积神 输入门i 、遗忘门f 依赖h l−1 和h l t−1 。这种依
t
t
t
经网络的卷积、池化进行改进,使其只沿输入特征 赖性使得记忆单元c 的更新和输入序列前后信息相
的频率轴方向进行,各卷积核、池化核在时间轴上 关,能够对记忆单元中的信息进行选择性的记忆和
的维度等于对应输入特征在时间轴上的维度,记为 遗忘,从而更有效地建模数据的长时依赖性。同时,
l
CNN-1D,而通常对输入特征所使用的二维操作记 输出门 o 控制记忆单元输出与当前时间步相关的
t
为CNN-2D。局部连接机制使卷积神经网络可以按 信息。
照参数所设定的尺度分析、挖掘声信号短时谱的局 l l
t
t
h t֓ h l֓ h t֓ h l֓
部时频信息,进而表达声信号时频两个维度的内在
联系。
ᣥК᫃ i l ᣥѣ᫃ o l
卷积神经网络模型参数依据声信号特点设置。 t t
ᝮॺӭЋ
l l
卷积核尺度大于线谱频率之间的间隔,以分析相邻 h t֓ c l t h t
线谱之间频带范围内的线谱特征。池化核尺度小于 h l֓ z l t
t
线谱频率之间的间隔,以避免池化核在频率轴上滑 l
f
t ᥌᫃
动时可能混淆相邻线谱特征。
l h l֓
h t֓ t
2.3 长短时记忆神经网络
长短时记忆神经网络是一种擅长处理序列数 图 3 LSTM 存储块结构
据的深度神经网络 [14] ,能够从序列中学习到数据特 Fig. 3 Structure of LSTM cell
征和建模数据之间的长短时依赖性。其循环连接的 直升机飞行是一个连续过程,因此其声信号特
结构使得长短时记忆神经网络可对历史信息进行 征具有时间上的连续性,这一特性有助于提升声目
记忆并应用于当前输出的计算中。区别于其他神经
标识别效果。特别是在直升机声信号特征变化时,
网络,其同一隐藏层之间的节点是有连接的且节点 历史信息有助于目标探测系统快速适应改变,及时
间参数共享,并且隐藏层的输入不仅包括当前时间 捕捉目标声信号特征。因此可考虑利用长短时记忆
步上一隐藏层的输出还包括上一时间步同一隐藏
神经网络学习声信号特征的长短时依赖性,改善连
层的输出。同时,在隐藏层中引入由记忆单元、输入 续识别过程中识别的正确率和鲁棒性。
门、输出门和遗忘门组成的存储块,存储块中的三
个门能对记忆单元进行读、写和复位操作,通过三 3 直升机识别实验
个门控制信息在不同记忆单元之间的流动。本文采
3.1 实验数据
用文献 [15] 所提出的 LSTM 存储块结构,如图 3 所
示,计算关系如下。 本文使用的数据是来自不同地点的多次外场
实验中采集的四种型号(分别以 A、B、C、D表示) 的
i l t sigm
直升机声信号。根据直升机声信号特点,信号采样
l
l−1
t l t l 率为3 kHz,兼顾特征提取与计算量控制。实验数据
f sigm h
= W + b , (3)
l l
t t−1
o sigm h 包含多种典型飞行状态,如不同高度的直线飞行和
z l t tanh 沿不同半径的盘旋飞行以及少量的不同距离和高