Nov, 2023

ShareGPT4V:改进大型多模态模型的更好标题

TL;DR在大型多模态模型领域,高效的模态对齐对于提升模型性能至关重要,但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈,我们介绍了 ShareGPT4V 数据集,这是一个包含 120 万条高度描述性的标题的创新大规模资源,其在多样性和信息内容上超越了现有数据集,涵盖了世界知识、对象属性、空间关系和美学评估。具体来说,ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题,通过在该子集上进行训练,将其扩展到 120 万个。ShareGPT4V 首先在监督微调(SFT)阶段展示了其有效性,通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题,显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型,分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段,获得了 ShareGPT4V-7B,一个基于简单架构的优秀 LMM 模型,其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得,以服务于 LMMs 社区的进一步发展。