Page 129 - 《应用声学》2021年第1期
P. 129
第 40 卷 第 1 期 肖旭等: 基于多域特征提取和深度学习的声源被动测距 125
设深度神经网络层数为 L,l 是每一层的索引 Adam算法是一种动态调整参数学习率的自适
(l)
号,x 、y (l) 分别是第 l 层的输入序列和输出序列, 应优化方法 [18] 。该方法通过梯度的一阶和二阶矩
网络的输入 y (0) = x,w (l) 和 b (l) 为第 l 层的权重矩 估计动态调整各网络参数的学习率,在迭代过程
阵和偏置向量,f(z) 表示非线性转移函数。标准的 中通过偏差纠正使学习率维持在一定范围,从而获
FF-DNN网络描述如下(对于l ∈ {0, 1, · · · , L−1层 得平稳的参数更新,这是解决声源测距问题的理想
的第i个神经元}) [17] : 方法。
设t 为迭代次数,w 为待估参数,J 为代价函数,
(l+1) (l+1) l (l+1)
x = w y + b ,
i i i (12) 首先计算梯度的指数移动平均数 m t 。m 0 初值为 0。
(l+1) = f(x (l+1) ).
y
i i 综合考虑之前时间步的梯度动量,设系数β 1 为指数
训练模型时,利用寻优算法对距离估计的代价 衰减率,有
函数进行迭代优化求极小值,找到合适的线性系数 m t = β 1 m t−1 + (1 − β 1 )∇ w J(w t−1 ). (15)
矩阵w 和偏置向量b:
计算梯度平方的指数移动平均数,v 0 初始化为0。设
∗
∗
(w , b ) = arg min J(w, b), (13) 系数β 2 为指数衰减率,有
w,b∈R N
2
v t = β t−1 + (1 − β 2 )∇ w J(w t−1 ) . (16)
其中,J 为代价函数,通常采用输出层输出的目标距
离估计值与真实距离之间的均方误差: m、v 初始化为 0 会导致 m t 偏向于 0,因此先进行偏
N 差纠正再更新参数:
1 ∑ L 2
J(w, b) = ||y − z j || , (14) t
j
2N ˆm t = m t /(1 − β ),
1
j=1
t
其中,N 是声信号训练样本数,j 是其样本索引号, ˆ v t = v t /(1 − β ), (17)
1
√
z j 是对应样本的真实距离。关于上述求解优化问 w t = w t−1 − η · ˆm t / ˆv t ,
题,常使用梯度下降法、共轭梯度法、拟牛顿法等数 式(17)中,η 为初始学习率。算法对更新的步长计算
值优化方法。由于求 Hessian 矩阵及其逆计算量十 从梯度均值及梯度平方两个角度进行自适应的调
分巨大,最常用的优化算法仍然是梯度下降算法。 节 [19] ,起到提高迭代效率和测距精度的作用。
在声源测距中,传统DNN存在以下缺陷:
1.3.3 网络参数稀疏化
(1) 测距误差较大。声源距离的代价函数可能
传统的 DNN 往往受限于特定的水声环境,对
高度非凸,迭代过程中容易陷入局部次优解或鞍点。
环境变化和信号畸变过于敏感,出现过拟合现象。
(2) 算法收敛速度慢。梯度下降法的初始学习
具体表现在迭代过程中训练误差下降到一定程度
率和调整策略需人工调节,相同的学习率被应用于
时,测试误差反而开始增大。为了生成泛用性强的
各个参数,效率低下。
模型,将数据映射到网络特征后,网络特征之间的重
(3) 模型泛化性和鲁棒性弱。全连接网络的模
叠信息应尽可能少,相关性尽可能低,从而近似于标
型复杂度过高,参数稀疏度过低,易发生过拟合,以
准正交基。其主要方法是使特征产生稀疏性:稀疏
至于对环境变化和信号畸变过于敏感。
特征有更大可能线性可分,或者对非线性映射机制
要解决以上问题,提高测距性能,重点在于如
有更小的依赖 [20] 。
何改进寻优策略、加快收敛速度、防止过度学习。为
L2 正则化是一种简单且有效的网络参数稀疏
此,本文引入 1 种自适应动态调整学习率的优化方
化方法。在式 (14) 加入惩罚项,通过惩罚因子 λ 控
法和2种网络参数稀疏化技术来改进网络模型。
制网络参数稀疏度:
1.3.2 Adam优化算法
J(w, b)
由于水下噪声、混响和水声信道的多途干扰,
N
1 ∑
2 2
目标距离的代价函数通常为非凸函数且局部次优 =
L
+ λ∥{w, b}∥ . (18)
y − z j
j
N
解,从而需要较大的学习率来跳出局部最优。然而, j=1
当在全局最优值附近搜索时,学习率太大会导致过 Dropout 正则化策略是另一种神经网络稀疏化
度学习,降低声源测距精度。 手段,其核心在于每次权重更新迭代中,对网络的每