近期,MILab在弱监督图像分割方面取得新进展,相关研究论文“Weakly Supervised Object Localization as Domain Adaption”已被计算机视觉顶级会议CVPR 2022接收。
图像定位及分割可以场景理解及疾病诊断提供重要的目标或病灶位置信息,一直以来是计算机视觉及医学影像处理中的研究热点。然而图像定位或分割模型的训练依赖于大量逐像素的密集人工标注,这一标注过程极大的耗费了时间及人力,增加了视觉从业人员及医生的工作量。为减轻标注工作的负担,弱监督图像定位方法在训练过程中利用图像级标签(如图像类别)替代像素级标注作为图像级特征的监督信号训练分类器,并在测试过程中将该分类器作用于像素级特征得到分割或定位结果。然而在图像级特征上训练的分类器倾向于仅捕捉部分具有鉴别性的特征,因此在将其应用在像素级特征进行分割时往往只能获取到部分物体区域而非物体整体。
考虑到弱监督目标定位中训练过程和测试过程所针对的特征域并不相同(源域为图像特征域,目标域则为像素特征域),MILab研究团队将弱监督目标定位看作一个特殊的域自适应任务,旨在通过域自适应方法拉近源域及目标域特征的方式增强弱监督定位效果。相比于传统域自适应任务,弱监督定位面临源域及目标域样本不平衡(目标域样本是源域的N倍)以及目标域存在未知标签(目标域存在背景类)这两个关键问题,因此,我们进一步将目标域样本分为三个子集(图1.A):①伪源域样本(Fake target sample)表示与源域特征分布相似的目标域样本;②未知类样本(Universum sample)表示类别在源域中不存在的目标域样本;③真实目标域样本(Real Target Sample)表示其余样本。
除了利用源域样本进行监督训练保证图像级的分类的准确性以外(Lc),上述三类目标域样本在域自适应过程中分别起到不同作用以解决在弱监督定位场景下样本不平衡及未知标签这两个问题,其中伪源域样本被看作源域样本的补充而非目标域样本,并通过MMD或者其他域自适应损失函数(Ld)拉近其与真实目标域样本的分布。而未知类样本则被用作Universum正则化保证该类样本处于分类决策边界上(Lu),使得分类器也可以更好的关注到目标域样本而非源域样本,如图1.B所示。

图1-利用域自适应策略进行弱监督定位。A. 源域、目标域及目标域子集的划分。B. 各集合在弱监督定位中的作用。
我们提出域自适应弱监督分割策略可以很便捷的将域自适应方法嵌入到已有弱监督分割方法中大幅提升其性能。如图2所示,在基准模型上嵌入我们的弱监督分割方法仅需要引入一个目标样本分配器(Target Sample Assigner)进行目标域样本子集的划分,该分配器通过记忆矩阵M在训练过程中实时更新每一类别的未知类样本与真实目标域样本的锚点,并以将二者和源域特征作为聚类中心进行三路K均值聚类,得到每个目标域样本所属的子集,并依此计算分类损失Lc、域自适应损失Ld、以及Universum正则损失Lu监督训练过程,在保证源域分类准确性的情况下,尽可能的拉近源域特征与目标域特征,从而使得在测试中将分类器作用于目标域时也可得到很好地分类效果,生成质量更高的定位热力图。

图2-整体模型结构及工作流
我们在三个标准弱监督定位数据集上对我们的方法进行了验证,包括CUB-200鸟类细粒度识别数据集,OpenImages分割数据集以及ImageNet目标识别定位数据集,在这些数据集上我们的模型在定位相关指标中都达到了当前最高。对于分类相关指标,虽然域自适应过于关注目标域的特性抑制了图像分类相关指标提高,但我们的方法仍优于大多数弱监督定位方法。图3也可视化展示了我们的方法与其他弱监督方法的性能对比,可以看到我们的方法可以抑制背景区域的高响应,从而获取更准确的目标物体定位框或分割结果。

图3-本方法与其他弱监督方法在三个数据集的定性比较
该论文的第一作者是MILab博士生朱磊,通讯作者是卢闫晔助理教授。其他合作者还包括字节跳动研究院佘琪博士,加拿大西安大略大学Boyu Wang助理教授。该研究得到了北京市自然科学基金重点项目(Z210008)、深圳科技计划(1210318663)、国家生物医学成像大设施基金的经费支持。
文章链接:https://arxiv.org/abs/2203.01714
相关代码已开源: Code-GitHub
2 评论
匿名用户 发表:
老师您好,图1下面一段话的第2句里存在一个typo,“...该分配器通过记忆矩阵M在训练过程中实时更新每一类别的位置类样本与真实目标域样本的锚点...”,应为“未知类”。
Yanye Lu 发表:
已修改,谢谢!
添加评论