看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

Nov, 2023

看得见才能相信：促进 GPT-4V 实现更好的视觉指导调优

To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu...

TL;DR通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令，我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V，并通过实验验证和案例研究证明，高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。

Abstract

Existing visual instruction tuning methods typically prompt large language models with textual descriptions to generate instruction-following data. Despite the promising performance achieved, these descriptions are derived from image annotations, which are oftentimes coarse-grained. Fu

visual instruction tuning language models fine-grained visual instruction dataset performance improvement multimodal model

发现论文，激发创造

LLaVAR: 文本丰富图像理解增强可视化指导调整

本研究提出了 LLaVAR 模型，是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的，该模型显着提高了模型在基于文本的 VQA 数据集上的性能，并通过定性分析展示了与人类交互的潜力。

Jun, 2023

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

大规模多模型对齐与鲁棒指令调整

通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法（GAVIE）来评估 LMMs 的视觉指导优化，本研究探究了 LMMs 的幻觉问题，并成功地缓解了幻觉并提高了该模型的性能。

Jun, 2023

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

视觉指导调整中基于人工标注任务的扩展

通过构建最具多样性的 Vision-Flan 数据集和两阶段指导调优框架，本研究解决了现有 VLM 框架中的任务多样性和注释错误的挑战，并在广泛的多模态评估基准中取得了最新的最佳性能。

Feb, 2024

InstructionGPT-4：Fine-Tuning MiniGPT-4 的 200 指令范式

通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练，多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4，该模型在仅包括 200 个示例的小数据集上进行了微调，相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6％。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准，我们提出了一种简单而有效的数据选择器，用于自动识别和过滤低质量的视觉语言数据。采用这种方法，InstructionGPT-4 在各种评估（如视觉问答、GPT-4 偏好）上的表现优于原始的 MiniGPT-4。总的来说，我们的研究结果表明，较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。

Aug, 2023

指引的重要性

介绍了 Instruction Document Visual Question Answering（iDocVQA）数据集和 Large Language Document（LLaDoc）模型，用于训练文档分析的语言 - 视觉（LV）模型和文档图像上的预测。

Feb, 2024

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

赋能视觉语言模型来遵循交替视觉语言指令

综合评估了多模态大型语言模型的指导遵循能力，并引入了 I4 基准测试，提出了一种智能控制知识重新注入模块和无标注跨注意力引导的反事实图像训练策略，从而实现了在复杂的纷繁视觉语言指令中有效处理的新型多模态大型语言模型 Cheetah，达到了 I4 中所有任务的零样本表现的最新水平，并与当前 MME 基准的最新指导优化模型相比具有竞争力的性能。

Aug, 2023