Page 104 - 《应用声学》2019年第6期

P. 104

1006 2019 年 11 月

征(Log-power spectra, LPS)映射为纯净的LPS，再 1.2 神经网络回归模型
结合带噪相位利用重叠相加法 [24] 将信号变换回时在人工神经网络理论中，无限逼近定理 [25−26]
域。本文进一步采用 DNN 同时估计纯净 LPS 和理为 DNN 强大的映射学习能力提供了理论基础。无
想比率掩蔽 (Ideal ratio mask, IRM) 以提高 DNN 限逼近定理表明，一个仅有一个隐藏层的前馈多层
输出的稳健性。第二，提出阵列 DNN 方法，将多个感知机含有一个任意的连续S 型函数和有限神经元
阵元的 LPS 特征拼接为一个长向量作为 DNN 的输数量，可以在 R 的子集上以任意精度逼近任意连
n
入，从而利用阵列空间信息来恢复目标信号。同时续的函数。
研究了不同阵元规模情况下如何有效利用阵列信令 σ 为任意连续 S 型函数，如 sigmoid 函数。I n
号中的时间信息和空域信息。第三，在阵列DNN的代表 n 维单位超立方体 [0, 1] 。I n 上的实值连续函
n
基础上提出了两阶段融合 DNN 模型，第一阶段将数空间表示为 C(I n )。无限逼近定理表述如下 [26] ：
阵列分为若干个子阵，分别利用每个子阵训练阵列函数形式
N
DNN，第二阶段将第一阶段降噪后的特征以及所有 ∑
T
G(x) = β j σ(y x + θ j ) (2)
阵元的带噪特征一起输入一个 DNN 进行特征融合 j
j=1
训练，这样的两阶段 DNN 处理可看作一个组合模在 C(I n ) 中是稠密 (dense) 的，其中 N 为整数，
型，第一阶段主要利用时间信息，第二阶段主要强调 β j , θ j ∈ R 为实参数，y j 是实向量。换言之，给定
空间信息，因而能全面利用各阵元包含的丰富时频任意 f ∈ C(I n ) 和 ε > 0，总有一个函数 G(x)，对于
域信息。实验证明单阵元 DNN 能明显提高输出信所有x ∈ I n 满足|G(x) − f(x)| < ε。
号质量，抑制噪声，最后的两阶段 DNN 模型可以取人工神经网络的函数逼近误差是有界的 [25] 。
得上述模型中最佳的处理效果。对于一个单隐藏层含有 N 个 S 型神经元节点的前
本文内容安排如下：第一部分介绍神经网络回馈网络，网络逼近函数的积分平方误差在 cf/N 内，
归理论和单阵元 DNN 模型。第二部分阐述提出的 cf 取决于被逼近函数的傅里叶变换的模。分析公
阵列 DNN 模型和两阶段融合模型。实验结果和分式 (2) 可知，最简单的回归网络结构含有一个输入
析为第三部分。最后一个部分为结论。层，对应于形式 y x + θ j ，一个隐藏的 S 型函数层，
T
j
对应于 σ(y x + θ j ) 和一个线性输出层来对所有神
T
j
1 单阵元DNN模型经元的值进行加权求和作为最后的标量输出 G(x)。
最近，上述向量对标量的多层感知机映射已被拓展
1.1 信号模型
到高维的向量对向量的深度回归模型 [22] ，也即输出
考虑一个任意的M 阵元的接收阵。阵列接收信
不再是一个标量而是一个多维向量，可以利用其映
号经过短时傅里叶变换 (Short time Fourier trans-
射能力来研究水声被动信号恢复问题。在本文中所
form, STFT)后在频域表示为M 维向量Z(ω l , k)，
用深度神经网络的结构如下：输入向量 x 由接收信
Z(ω l , k) = S(ω l , k) + N(ω l , k), 号的 L 维 LPS 特征构成，LPS 特征即为 log(P Z )，其

l = 1, 2, · · · , L, (1) 中P Z 为功率谱，输出也为一个向量，其中包含恢复
其中，Z(ω l , k)=[z 1 (ω l , k) z i (ω l , k) · · · z M (ω l , k)] T 出的目标信号的 LPS 特征，中间不再只有一个隐藏
层，隐藏层节点数为N。
代表接收向量，S(ω l , k) = [s 1 (ω l , k) s i (ω l , k) · · ·
s M (ω l , k)] T 代表 M 维信号向量， N(ω l , k) = 1.3 单阵元DNN
T
[n 1 (ω l , k) n i (ω l , k) · · · n M (ω l , k)] 为 M 维噪在单阵元条件下，本文提出用 DNN 回归模型
T
声或干扰向量，(·) 代表转置。z i (ω l , k)、s i (ω l , k) 和来进行水声目标信号恢复。如图1所示，其处理过程
n i (ω l , k)分别代表第i阵元的接收信号、目标信号和包括两个阶段：训练阶段和测试阶段。对于训练阶
噪声，i = 1, · · · , M。ω l 为离散频率，l 为频率索引，段，首先构造一个训练数据集，然后提取训练所需的
L 为处理的频率点数，k 为时间帧索引。为简洁描特征，设计好DNN结构并进行训练。DNN的输入为
述，文章余下部分省略ω l 。当M = 1时，接收信号简接收信号的 LPS 进行扩帧后的特征，输出为纯净的
化为单阵元信号。目标信号的当前时间帧的 LPS 特征。DNN 的目标

99 100 101 102 103 104 105 106 107 108 109