视觉指令调整
使用机器生成的指令跟随数据,通过集成对生成和图像编辑任务的支持,我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集,并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略(语言模型的 LLaMA,图像文本匹配的 SigLIP,文本到图像生成的 StableDiffusion),我们建立了 GenLLaVA,一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力,并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果,为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点,以促进该领域的进一步研究与应用。
Jun, 2024
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。
Jun, 2023
本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning,发现相较于之前最先进模型生成的数据,52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。
Apr, 2023
通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练,多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4,该模型在仅包括 200 个示例的小数据集上进行了微调,相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6%。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准,我们提出了一种简单而有效的数据选择器,用于自动识别和过滤低质量的视觉语言数据。采用这种方法,InstructionGPT-4 在各种评估(如视觉问答、GPT-4 偏好)上的表现优于原始的 MiniGPT-4。总的来说,我们的研究结果表明,较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。
Aug, 2023
通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法(GAVIE)来评估 LMMs 的视觉指导优化,本研究探究了 LMMs 的幻觉问题,并成功地缓解了幻觉并提高了该模型的性能。
Jun, 2023
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。
Nov, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾,我们总结出高质量图像语言调整数据的特点,构建了完整的数据收集、指令生成和质量控制模块的构建流水线,并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调整,并通过相应的度量指标进行了大量实验,以论证本文提出的构建原则的合理性。
Nov, 2023
通过对 LLaVA 进行简单修改,采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据,我们建立了更强的基线模型,在 11 个基准测试中达到了最新的成果。
Oct, 2023