基于 Transformer 的弱监督目标定位及隐式空间校准

ECCVJul, 2022

基于 Transformer 的弱监督目标定位及隐式空间校准

Weakly Supervised Object Localization via Transformer with Implicit Spatial Calibration

Haotian Bai, Ruimao Zhang, Jiong Wang, Xiang Wan

TL;DR该论文介绍了一种用于高精度弱监督下物体定位的外部模块 —— 空间校准模块（SCM），用于调整 Transformer 的长程建模，以帮助捕捉物体的空间一致性，提高训练期间的信息传输效率和生成的注意力图的边界精度，从而显着提高了性能表现。

Abstract

weakly supervised object localization (WSOL), which aims to localize objects by only using image-level labels, has attracted much attention because of its low annotation cost in real applications. Recent studies leverage the advantage of →

weakly supervised object localization self-attention visual transformer spatial calibration module optimization

发现论文，激发创造

基于语义约束匹配的弱监督目标定位 Transformer

本研究提出了一种基于转换器的新型语义约束匹配网络（SCMN），通过匹配从成对图像中提取的粗糙类激活图（CAMs），从而隐式引导和校准转换器网络以缓解发散激活问题，在 CUB-200-2011 和 ILSVRC 数据集上进行的大量实验结果显示，我们的方法可以达到最新的最优性能，并且在性能上超过之前方法很大幅度。

Sep, 2023

TS-CAM: Token Semantic Coupled Attention Map 用于弱监督目标定位

通过引入 token 语义耦合的注意力映射（TS-CAM），该文利用 Transformer 网络的自注意力机制提取远程特征依赖性以避免局部激活问题，进而实现了语义感知定位的最新性能改进。

Mar, 2021

使用样本内对比学习和一致性注意力进行弱监督目标定位

本文提出了一种对弱监督对象定位进行背景辅助的方法，该方法旨在使用对比度关注损失，前景一致性损失和非局部注意力块来提高各层次对目标的感知，进而实现更高的图像定位精度。

Sep, 2020

LCTR：唤醒 Transformer 的本地连续性以进行弱监督的物体定位

本文提出了一种基于 transformer 的新型框架 LCTR（局部连续 Transformer），旨在增强局部感知能力，包括关系补丁注意模块（RPAM）和 Cue Digging 模块（CDM），在两个广泛使用的数据集上进行了全面实验，验证了该方法的有效性。

Dec, 2021

弱监督物体定位中的本地化反思

通过引入二分类检测器和加权熵损失函数，提出了一种改进的弱监督目标定位方法，解决了现有方法中单类回归和噪声边界框带来的限制和问题。在 CUB-200-2011 和 ImageNet-1K 数据集上的实验结果表明了我们方法的有效性。

Aug, 2023

ViTOL: 弱监督目标定位的视觉 Transformer

我们提出了一种名为 ViTOL 的方法来处理弱监督目标定位问题，在自我关注和渐变关注实现的基础上，引入了基于补丁的关注中断层 (p-ADL) 用于增加定位图的覆盖范围，并且使用基于类别的注意力图生成机制来解决类不可知的问题，并在 ImageNet-1K 和 CUB 数据集上取得了 70.47% 和 73.17% 的最新结果。

Apr, 2022

评估弱监督目标定位方法

本文提出了一种新的评估协议，其中完全监督仅限于与测试集不重叠的少量保留集，进一步验证了在只有图像级标签的情况下 WSOL 任务是存在问题的，而实现了评估协议的五种最新 WSOL 方法并没有显著优于 CAM 基线，同时我们还发现现有 WSOL 方法并未达到在不同情况下采用完全监督的训练基线水平，提出了 WSOL 未来的一些方向。

Jan, 2020

弱监督目标定位与域自适应

本文采用领域适应任务的视角，提出了一种 DA-WSOL 流程，旨在通过目标采样策略、多领域适应本地化损失函数和 Universum 正则化等方法来解决 WSOL 中存在的激活问题，进而提高弱监督对象定位的表现。实验表明，该流程在多个基准测试上优于现有技术，可通过 https://github.com/zh460045050/DA-WSOL_CVPR2022 下载到源代码。

Mar, 2022

浅层特征对弱监督目标定位的影响

本研究提出了一种有效的浅层特征感知的伪监督目标定位模型，通过浅层和深层特征的逐元素相乘过滤背景噪声，生成更锐利的边界并进一步提出了一个通用的类不可知分割模型以实现精确的物体掩模定位，最终应用边界框提取器定位目标，实验验证我们的模型在 CUB-200 和 ImageNet-1K 基准测试数据集上优于现有技术，分别达到 93.44％（提高了 3.93％）和 67.15％（提高了 2.13％）的 Top-5 定位准确度。

Aug, 2021

揭示结构保持在弱监督下物体定位中的潜力

本文提出了一种名为 SPA 的两阶段方法，通过受限激活模块（RAM）和自相关图生成模块（SCG）的设计，从分类网络中提取对象结构信息，以实现弱监督对象定位（WSOL），在 CUB-200-2011 和 ILSVRC 两个公共基准测试中，SPA 相对于基准方法有着显著和一致的性能提升。

Mar, 2021