Page 69 - 《应用声学》2020年第3期
P. 69
第 39 卷 第 3 期 徐利刚等: 一种基于弱监督学习的声图小目标快速检测方法 389
分布。设数据集为 X = (x 1 , x 2 , · · · , x N ),标签为 片段的标注中将包含一系列矩形框的坐标和它们
Y = (y 1 , y 2 , · · · , y N ),可被描述为 所对应的类别标签。在弱监督场景下,未标注区域
L 将被视作 “疑似负样本”。对这些未标注或标注不全
∑
p (X|y i ) = α l p (X|µ l , y i )
的样本,将首先借助基于式 (5) 所示的局部统计特
l=0
L ( −1 ) 征的显著图这一外部正则化条件,找出在局部统计
∑ 1 T ∑
= α l exp − (x − µ l ) (x − µ l ) , (6) 先验下的L2范数最大似然标签:
2
l=0 l
其中,T 表示转置,这里,强制 α l 为统一的值以应对 y MLE = arg max p (X;)
数据集中类别不平衡的特点。
2
∝ arg min ∥Λ (X − X y i )∥ , (9)
不同于经典 KNN 模型采用欧几里德距离度量 y i
T
去寻找 k 个最近邻样本,改进算法通过求解 K 近 其中,X = (σ, d, h) 为未标注块的局部统计量,
邻 -高斯混合期望向量 (µ 1 , µ 2 , · · · , µ K ) 来预测测 式 (9) 中采用 L2 范数即为默认该局部统计矢量与
试样本的标签。标签的预测值 ˆy 通过可贝叶斯方程 各类中心之间的距离符合高斯分布。式(9) 中权重
来表示: 参数矩阵 Λ = diag (λ σ , λ d , λ h )是一个对角阵,用于
ˆ y = arg max p (y|x) 调整 3 种局部统计特征的偏好,本文方法直接按照
y
直观理解将其赋为固定值,将三者归一化。也可考
= arg max p (x|y i ) p (y i )
y i 虑使用前述的 GMM 模型对这三个参数进行学习。
K
∑ 在最大似然标签的监督下,这些未标注或标注不全
≈ arg max p (y i ) p (x|µ k , y i ) p (µ k ). (7)
y i 的样本就可以转化为一般的监督学习场景。
k=1
这里,从 KN-GMM 中计算出的概率可作为图像块 通常,将一个 200 m×400 m 大小、含有目标的
的置信度得分: 声图片段分割成 5 m×5 m、包含 50% 重叠的图像
K 块,所有和标注矩形框相交的图像块都将被视作正
∑
C (x) = p (y i ) p (x|µ k , y i ) p (µ k ). (8)
样本,这样便可以得到大约包含6000个样本的数据
k=1
集。这种量级的数据足以训练KN-GMM,可保证在
GMM 的训练过程如下:首先,进行 K-均值聚
类。具有某一类别标记的数据被分成L 个聚类以形 弱监督学习应用场景下,检测系统具有较为可靠的
成GMM模型L个原始分量。对于每个聚类,估计期 性能。
∑ 考虑增量学习的情况,新加入的数据样本将同
望 µ l 和标准差 来初始化 GMM。接着,通过最
l
大期望(Expectation maximization, EM) 算法来迭 样首先进行 K-均值聚类,然后用于修正 GMM 模型
代训练 GMM。GMM用于预测训练样本,那些预测 的参数值。
不正确的样本会反过来修正GMM 的参数值。直至 最后,通过对比置信度的预测矩阵和由每个
没有训练样本被错误预测时,迭代结束。KN-GMM 图像块的标准差、动态范围和熵生成的显著图,剔
的训练过程如图3所示。 除上述两个值与其他样本具有较大差异的候选图
对数据进行手动标注时,一般采用矩形框对图 像块。采用 KN-GMM 和显著图指导的预测过程如
像中出现目标的位置进行标注。换言之,一个声图 图 4所示。
ˏफᩲឨ
ಖᝮᄊನవ
௧
ѷӑ ᧫ࠫඈ˔GMM ա
ૉጯ K-کϙᐑዝ ᮕᝫጷನవ ᩲឨಖᝮὝ ᰴளຉՌവی
ಖኤξ Ѭ᧚ᝠካE֗D
图 3 KN-GMM 的训练过程
Fig. 3 Procedure of training KN-GMM