ACTRESS：半监督视觉定位的主动重新训练

Jul, 2024

ACTRESS：半监督视觉定位的主动重新训练

ACTRESS: Active Retraining for Semi-supervised Visual Grounding

Weitai Kang, Mengxue Qu, Yunchao Wei, Yan Yan

TL;DR本研究提出了ACTive REtraining方法，用于解决稀有标注数据和多模型理解需求的半监督视觉定位问题，通过引入量化检测头和选择性重训练策略，使用辅助标签和无标签数据达到了在广泛使用的基准数据集上卓越的表现。

Abstract

semi-supervised visual grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, refteacher, makes the first attempt to tackle this task by adop

发现论文，激发创造

再探视觉定位

本文重新审视了 Johnson 等人于 2015 年提出的“使用场景图像检索单元进行图像检索”的图像 grounding 方法，发现该方法没有有效地使用其学习的物体-关系模型。同时，作者还研究了 IRSG 数据集和 VRD 数据集，并发现这些数据集存在偏差，容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题，研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。

Apr, 2019

怀疑对象的重要性：重新思考单阶段视觉定位模型的预测

本文提出了一个基于可疑对象图和关键词感知节点表示的一阶视觉定位的方法，用于解决在一阶视觉定位中由于可疑对象的存在导致模型预测错误的问题，并在广泛的基准测试中展示了其有效性。

Mar, 2022

通过鼓励一致的基于梯度解释来改善视觉定位

Attention Mask Consistency是一种基于边缘的损失函数，在视觉语言模型预训练中作用使得梯度基础的解释与区域级别注释保持一致，并且比依赖于明确训练对象检测器的区域级注释的模型产生更优秀的视觉定位性能。

Jun, 2022

CLIP-VG: 利用伪语言标签自适应的CLIP自适应自学课程对视觉 grounding

本文提出了一种基于CLIP-VG的自我学习课程适应方法，通过利用伪语言标签来解决VG问题，以达到隐式知识利用和去噪。研究结果表明，该方法在单源和多源情况下都远优于现有的最先进的无监督VG方法Pseudo-Q，甚至优于现有的弱监督方法。

May, 2023

VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位

利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务，以图文扩散模型为基础设计了一个全面的区域评分方法，证明了其在零阶视觉定位上的强大性能。

Sep, 2023

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像-文本配对模型和纯物体检测数据，我们提出了一种名为GroundVLP的简单而有效的零样本方法，该方法结合了GradCAM热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在RefCOCO/+/g数据集上超过了现有零样本方法的28％，并且在Flickr30k实体数据集上与一些非VLP的有监督模型表现相当甚至更好。

Dec, 2023

基于模型和数据的视觉定位学习

SynGround是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024

SegVG：将物体边界框转化为分割图像以进行视觉对齐

SegVG是一种新颖的方法，通过将边界框级别的注释转化为分割信号，为视觉定位任务提供了像素级别的监督。通过多层多任务编码器-解码器，我们学习了回归查询和多个分割查询，以在每个解码层中通过回归和分割来定位目标。通过三重对齐模块来减少域间差异，该模块使用三重注意机制来更新查询、文本和视觉特征，从而提升了目标定位性能。在五个广泛使用的数据集上进行的大量实验证实了我们的卓越性能。

Jul, 2024

基于注意力驱动的约束平衡的视觉定位

本文介绍了一种名为AttBalance的新框架，通过优化语言相关区域内的视觉特征行为，以提高视觉定位任务的性能，并在四个不同基准测试上对五种不同模型进行了评估和持续改进，进而在QRNet上实现了最新的表现水平。

Jul, 2024

ResVG：增强多实例视觉定位中的关系和语义理解

本研究针对现有方法在多实例干扰下准确定位目标物体的挑战，提出了一种新的关系和语义敏感视觉定位模型（ResVG）。该模型通过注入来自文本查询的语义先验信息和实施关系敏感的数据增强方法，显著提高了对物体语义与空间关系的理解，从而在视觉定位任务中取得了更好的性能表现。

Aug, 2024