基于 Transformer 的弱监督目标定位及隐式空间校准
本研究提出了一种基于转换器的新型语义约束匹配网络(SCMN),通过匹配从成对图像中提取的粗糙类激活图(CAMs),从而隐式引导和校准转换器网络以缓解发散激活问题,在 CUB-200-2011 和 ILSVRC 数据集上进行的大量实验结果显示,我们的方法可以达到最新的最优性能,并且在性能上超过之前方法很大幅度。
Sep, 2023
通过引入 token 语义耦合的注意力映射(TS-CAM),该文利用 Transformer 网络的自注意力机制提取远程特征依赖性以避免局部激活问题,进而实现了语义感知定位的最新性能改进。
Mar, 2021
本文提出了一种对弱监督对象定位进行背景辅助的方法,该方法旨在使用对比度关注损失,前景一致性损失和非局部注意力块来提高各层次对目标的感知,进而实现更高的图像定位精度。
Sep, 2020
本文提出了一种基于 transformer 的新型框架 LCTR(局部连续 Transformer),旨在增强局部感知能力,包括关系补丁注意模块(RPAM)和 Cue Digging 模块(CDM),在两个广泛使用的数据集上进行了全面实验,验证了该方法的有效性。
Dec, 2021
通过引入二分类检测器和加权熵损失函数,提出了一种改进的弱监督目标定位方法,解决了现有方法中单类回归和噪声边界框带来的限制和问题。在 CUB-200-2011 和 ImageNet-1K 数据集上的实验结果表明了我们方法的有效性。
Aug, 2023
我们提出了一种名为 ViTOL 的方法来处理弱监督目标定位问题,在自我关注和渐变关注实现的基础上,引入了基于补丁的关注中断层 (p-ADL) 用于增加定位图的覆盖范围,并且使用基于类别的注意力图生成机制来解决类不可知的问题,并在 ImageNet-1K 和 CUB 数据集上取得了 70.47% 和 73.17% 的最新结果。
Apr, 2022
本文提出了一种新的评估协议,其中完全监督仅限于与测试集不重叠的少量保留集,进一步验证了在只有图像级标签的情况下 WSOL 任务是存在问题的,而实现了评估协议的五种最新 WSOL 方法并没有显著优于 CAM 基线,同时我们还发现现有 WSOL 方法并未达到在不同情况下采用完全监督的训练基线水平,提出了 WSOL 未来的一些方向。
Jan, 2020
本文采用领域适应任务的视角,提出了一种 DA-WSOL 流程,旨在通过目标采样策略、多领域适应本地化损失函数和 Universum 正则化等方法来解决 WSOL 中存在的激活问题,进而提高弱监督对象定位的表现。实验表明,该流程在多个基准测试上优于现有技术,可通过 https://github.com/zh460045050/DA-WSOL_CVPR2022 下载到源代码。
Mar, 2022
本研究提出了一种有效的浅层特征感知的伪监督目标定位模型,通过浅层和深层特征的逐元素相乘过滤背景噪声,生成更锐利的边界并进一步提出了一个通用的类不可知分割模型以实现精确的物体掩模定位,最终应用边界框提取器定位目标,实验验证我们的模型在 CUB-200 和 ImageNet-1K 基准测试数据集上优于现有技术,分别达到 93.44%(提高了 3.93%)和 67.15%(提高了 2.13%)的 Top-5 定位准确度。
Aug, 2021
本文提出了一种名为 SPA 的两阶段方法,通过受限激活模块(RAM)和自相关图生成模块(SCG)的设计,从分类网络中提取对象结构信息,以实现弱监督对象定位(WSOL),在 CUB-200-2011 和 ILSVRC 两个公共基准测试中,SPA 相对于基准方法有着显著和一致的性能提升。
Mar, 2021