LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

May, 2024

LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

Haoyu Zhao, Wenhang Ge, Ying-cong Chen

TL;DR通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。

Abstract

visual grounding is an essential tool that links user-provided text queries with query-specific regions within an image. Despite advancements in visual grounding models, their ability to comprehend complex queries remains limited. To overcome this limitation, we introduce →

visual grounding llm-optic large language models complex text queries zero-shot visual grounding

发现论文，激发创造

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

GLaMM: 像素 grounding 大规模多模态模型

GLaMM 是首个能够无缝生成自然语言回复并与相应对象分割遮罩混合的模型，在图像和文本领域中以不同粒度的方式与模型进行交互，同时通过 GLaMM，还可以在诸多其他任务中有效地实现指代表达分割、图像和区域级别的字幕以及视觉语言对话。

Nov, 2023

BuboGPT：多模态 LLM 中的视觉定位

BuboGPT 是一种多模态的 LLM，具有视觉定位和文本 - 图像 - 音频理解的能力，通过 SAM 和一个两阶段的训练方案来实现实体识别和对应目标的定位。在任意模态组合 (对齐或未对齐) 的情况下，BuboGPT 在与人类交互时表现出令人印象深刻的多模态理解和视觉定位能力。

Jul, 2023

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

提升文档理解能力的研究：基于 MLLMs 的文本定位探索

在文档理解领域，本文提出了一种文本定位的文档理解模型，命名为 TGDoc，通过增强多模态大型语言模型（MLLMs）的能力来识别图像内文本的空间位置，以提高文本内容解释的准确性，从而提高对文本丰富图像的理解能力。实验证据表明，文本定位方法在多个文本丰富基准测试中取得了最先进的性能，验证了我们方法的有效性。

Nov, 2023

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023

基于综合切分对大型语言模型进行落地：地鼠模型

用全貌分割为基础，GROUNDHOG 将多模态大型语言模型连接到实体标记，从而优化了语言到对象的关联，提升了视觉理解和诊断能力。

Feb, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022