OLIVE：物体级别的上下文视觉嵌入

ACLJun, 2024

OLIVE：物体级别的上下文视觉嵌入

OLIVE: Object Level In-Context Visual Embeddings

Timothy Ossowski, Junjie Hu

TL;DR通过在上下文中引入视觉对象向量，我们提出了一种新的方法来引导大型语言模型，从而实现可控的对象级推理，消除了融合冗长图像区块特征的必要性，显著加速了训练。此外，我们还提出了使用对象表示进行区域级检索的方法，便于快速适应新对象而无需额外训练。我们的实验证明，我们的方法在参考对象分类和字幕生成性能上达到了竞争力，并提供了零样本泛化和对视觉上具有挑战性的情境的稳健性。

Abstract

Recent generalist vision-language models (VLMs) have demonstrated impressive reasoning capabilities across diverse multimodal tasks. However, these models still struggle with fine-grained object-level understanding

generalist vision-language models fine-grained object-level understanding embedding alignment controllable object-level reasoning zero-shot generalization

发现论文，激发创造

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

Jun, 2024

学习定位对象提高视觉语言模型的空间推理能力

将大型语言模型（LLM）整合到视觉领域任务中，从而形成视觉 - LLM（V-LLM），在视觉问答（VQA）等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标，我们探索了如何为 V-LLM 注入空间意识，包括发现最佳坐标表示、数据效率的指导微调目标和伪数据生成策略。我们的模型在图像和视频领域提升了 VQA 性能，减少了不必要的幻觉，并生成了更好的上下文对象描述。通过涉及 14 个不同数据集的 5 个视觉语言任务的实验，验证了我们提出的框架明显的性能改进。

Apr, 2024

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

使用视觉表示探究上下文语言模型的共同基础

本文通过设计一种探针模型，研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度，并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果，而文本上下文在该过程中发挥了重要作用，但比起人类，具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究，进一步地理解和改善语言模型的视觉能力。

May, 2020

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

评估 VLMs 用于基于分数的、多探针注释三维物体

我们提出了一种方法来边际化通过 VLM 查询变化的任何因素，利用采样响应的 VLM 分数。我们展示了这种概率整合可以在摘要中胜过语言模型（如 GPT4），避免了在响应之间存在对比细节时的幻觉。此外，我们展示了聚合注释对于 Prompt-Chaining 是有用的；它们有助于改进下游 VLM 的预测，例如当在提示中将对象类型指定为辅助输入时，提高了对物体材料的预测质量。利用这些评估，我们展示了 VLM 可以在大规模 Objaverse 数据集上接近人工验证的类型和材料注释的质量，而无需额外的训练或上下文学习。

Nov, 2023

LLMs 遇见 VLMs：用细粒度描述符提升开放词汇物体检测

DVDet 是一个描述符增强的开放词汇检测器，引入条件上下文提示和分层文本描述符，实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。

Feb, 2024

多模机器翻译中高效的物体级视觉上下文建模：掩蔽无关物体有助于建立联系

本文提出了一种基于物体级别视觉上下文建模的多模态机器翻译框架，采用对象掩模技术在可视模态下掩盖与源文本不相关的对象以实现翻译的视觉基础，同时引入了视觉加权翻译损失提高目标语言的视觉一致性，实验表明该模型优于现有的多模态机器翻译模型。

Dec, 2020

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024