通过鼓励一致的基于梯度解释来改善视觉定位

Jun, 2022

通过鼓励一致的基于梯度解释来改善视觉定位

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordóñez Román

TL;DRAttention Mask Consistency是一种基于边缘的损失函数，在视觉语言模型预训练中作用使得梯度基础的解释与区域级别注释保持一致，并且比依赖于明确训练对象检测器的区域级注释的模型产生更优秀的视觉定位性能。

Abstract

We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as →

发现论文，激发创造

利用解释使视觉和语言模型更加基于实际 - HINT方法

本文提出了一种名为HINT的通用方法，通过有效利用人类演示来改善视觉基础，以优化深度神经网络的对视觉概念的敏感性，并在视觉问答和图像描述任务中应用，在仅利用6%的训练数据的人类关注示例下，优于VQA-CP和强健字幕的主要方法。

Feb, 2019

使用Transformer进行视觉定位

该论文提出了一种基于Transformer编码器-解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本-视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案-free 方法。

May, 2021

SeqTR: 一种简单而通用的视觉定位网络

本文提出了一个名为SeqTR的简单且通用的网络，用于视觉定位任务和指代表达理解任务，通过将视觉定位问题视为图像和文本输入的点预测问题，可以在SeqTR网络中统一视觉定位任务而无需任务特定的分支或头，使用简单的交叉熵损失进一步降低了手工损失函数的复杂性，并且在五个基准数据集上进行的实验证明了SeqTR的可行性和优越性。

Mar, 2022

通过自洽解释改进的视觉对准

使用视觉与语言模型、视觉解释方法和近义词进行微调，目标是提高定位能力和对象高亮质量。在多个数据集中，通过该方法相较于基线方法和之前的工作获得了显著的改进。

Dec, 2023

指代图像分割的遮罩定位

通过引入Mask Grounding辅助任务和跨模态对齐损失以及对应的对齐模块，提出了一种用于改善参照图像分割算法的综合方法MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系，在RefCOCO、RefCOCO+和G-Ref等三个关键基准测试中显著优于现有算法，有效地解决了当前参照图像分割算法的局限性。

Dec, 2023

基于综合切分对大型语言模型进行落地：地鼠模型

用全貌分割为基础，GROUNDHOG将多模态大型语言模型连接到实体标记，从而优化了语言到对象的关联，提升了视觉理解和诊断能力。

Feb, 2024

对比区域指导：在无需训练的视觉语言模型中改善定位

通过对视觉线索进行引导，使用对比区域引导（CRG）方法可以提高视觉-语言模型（VLMs）在多种视觉-语言任务上的性能，减少模型偏见，提高准确性。

Mar, 2024

基于模型和数据的视觉定位学习

SynGround是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024

基于注意力驱动的约束平衡的视觉定位

本文介绍了一种名为AttBalance的新框架，通过优化语言相关区域内的视觉特征行为，以提高视觉定位任务的性能，并在四个不同基准测试上对五种不同模型进行了评估和持续改进，进而在QRNet上实现了最新的表现水平。

Jul, 2024

用于3D视觉定位的细粒度空间和语言损失

本研究解决了3D视觉定位中现有损失函数未能充分建模实例间空间关系及语言描述粒度结构的问题。提出的细粒度空间损失和语言跨度损失为3D视觉定位提供了新的监督信号，帮助网络学习更具上下文感知的实例和语言嵌入。结果显示，新的方法在ReferIt3D基准测试中展现了竞争力的性能。

Nov, 2024