基于模型和数据的视觉定位学习
本研究提出了一种基于transformer的视觉定位框架,通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位,并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。
Apr, 2022
Attention Mask Consistency是一种基于边缘的损失函数,在视觉语言模型预训练中作用使得梯度基础的解释与区域级别注释保持一致,并且比依赖于明确训练对象检测器的区域级注释的模型产生更优秀的视觉定位性能。
Jun, 2022
该研究提出了一种有效的方法,将预训练的纯文本语言模型转移到视觉领域,使其能够处理和生成任意交错的图像和文本数据,并在上下文图像检索和多模态对话等方面实现了强有力的效果。
Jan, 2023
本文提出了一个新的基准数据集SK-VG,其中图像内容和指代表达不足以确定目标对象,迫使模型在长篇场景知识上具备推理能力。我们提出了两种方法来接受三元类型的输入,前者在图像查询交互之前将知识嵌入图像特征,后者利用语言结构来辅助计算图像文本匹配。通过大量实验证明了所提方法的可行性,并展示了他们取得的有希望的结果,但仍有改进的空间,包括性能和可解释性。
Jul, 2023
通过在图像环境中关联文字和短语到图像区域,本文提出了一个框架来共同研究任务表现和短语的关联,并提出了三个基准来研究二者之间的关系。我们的研究结果显示,现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题,并分析了它所产生的动态性。
Sep, 2023
通过现有的图像-文本配对模型和纯物体检测数据,我们提出了一种名为GroundVLP的简单而有效的零样本方法,该方法结合了GradCAM热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在RefCOCO/+/g数据集上超过了现有零样本方法的28%,并且在Flickr30k实体数据集上与一些非VLP的有监督模型表现相当甚至更好。
Dec, 2023
通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人-物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。
Jan, 2024
通过细粒度的奖励建模,ViGoR框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。
Feb, 2024
Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.
Apr, 2024
本研究解决了多模态大语言模型(MLLMs)在实例级视觉语言问题上的局限性,提出了一种新的任务“多上下文视觉定位”。通过构建包含2K高质量标注样本的MC-Bench数据集,为评估MLLMs的能力提供了基准,研究发现现有MLLMs在多图场景下的表现显著低于人类,推动相关领域的进一步研究。
Oct, 2024