大型语言模型是视觉推理协调器
我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。
Nov, 2023
当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案,即使用蜡笔提示进行指导调整,以提高对象级图像理解能力。此外,我们还提出了双重 QLoRA 学习策略,以在视觉指导调整过程中保持对象级图像理解能力,从而在零样本的多个视觉语言基准测试中取得了显著的进展。
Feb, 2024
基于 Vision-Language Models 的 VoCo-LLaMA 方法通过引入 Vision Compression tokens 和利用 attention distillation,实现了视觉压缩并提高推理效率,能够理解时间相关性,在多模态应用中具有广泛的潜力。
Jun, 2024
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
本文提出了一种名为 TReE 的方法,用于在零样本场景中将大型语言模型(LLMs)的推理能力转移给视觉语言模型(VLM),包含观察、思考和重新思考三个阶段。
May, 2023
本论文提出了一个可解释的多智能体协作框架,通过利用在广泛语料库上训练的大型语言模型中嵌入的知识,以人类认知为灵感,使用三个智能体,即探索者、回答者和整合者,进行自顶向下推理过程,从而明确地构建特定图像场景的多视图知识库,以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估,并通过全面的实验结果证明了其广泛的适用性和可解释性。
Nov, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM,通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理,从而统一了视觉和语言任务的视角,具有不同级别的任务定制能力,成为一种通用的视觉和语言模型。
May, 2023
RelationVLM 是一种大型视觉语言模型,通过多阶段关系感知训练方案和相应的数据配置策略,使其具备理解多个图像或视频内的多个层次和类型关系的能力,该工作促进了 LVLM 的发展,使其能够支持更广泛的人工通用智能应用。
Mar, 2024