LLaVAR: 文本丰富图像理解增强可视化指导调整

Jun, 2023

LLaVAR: 文本丰富图像理解增强可视化指导调整

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka...

TL;DR本研究提出了 LLaVAR 模型，是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的，该模型显着提高了模型在基于文本的 VQA 数据集上的性能，并通过定性分析展示了与人类交互的潜力。

Abstract

instruction tuning unlocks the superior capability of large language models (LLM) to interact with humans. Furthermore, recent instruction-following datasets include images as visual inputs, collecting responses

large language models instruction tuning visual instruction tuning pipeline text-rich images llavar

发现论文，激发创造

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。

Nov, 2023

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024

大规模多模型对齐与鲁棒指令调整

通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法（GAVIE）来评估 LMMs 的视觉指导优化，本研究探究了 LMMs 的幻觉问题，并成功地缓解了幻觉并提高了该模型的性能。

Jun, 2023

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

多模态大语言模型的位置增强视觉指令调整

通过引入区域级别的视觉编码器，本文提出了一种增强图像教学调整功能的多模态大型语言模型（MLLMs），以实现更细粒度的模态交叉对齐，并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集，实验结果表明该模型的卓越性能。

Aug, 2023

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023