ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

Feb, 2024

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu...

TL;DR利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案，通过合成数据集，我们训练了 ALLaVA 模型，该模型在 12 个基准测试中取得了竞争性的性能，展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。

Abstract

Recent advancements in large vision-language models (LVLMs) have enabled processing of multimodal inputs in language models but require significant computational resources for deployment, especially in edge devic

large vision-language models computational resources lite versions synthetic dataset high-quality data

发现论文，激发创造

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

ShareGPT4V：改进大型多模态模型的更好标题

在大型多模态模型领域，高效的模态对齐对于提升模型性能至关重要，但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈，我们介绍了 ShareGPT4V 数据集，这是一个包含 120 万条高度描述性的标题的创新大规模资源，其在多样性和信息内容上超越了现有数据集，涵盖了世界知识、对象属性、空间关系和美学评估。具体来说，ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题，通过在该子集上进行训练，将其扩展到 120 万个。ShareGPT4V 首先在监督微调（SFT）阶段展示了其有效性，通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题，显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型，分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段，获得了 ShareGPT4V-7B，一个基于简单架构的优秀 LMM 模型，其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得，以服务于 LMMs 社区的进一步发展。

Nov, 2023

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

重新思考视觉语言模型中被忽视的方面

该论文研究了大型视觉语言模型（LVLMs）中数据效率的常常被忽视的方面，以及预训练和微调数据的选择过程，旨在优化数据使用来增强视觉语言模型的性能。

May, 2024

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024