Nov, 2023
看得见才能相信:促进 GPT-4V 实现更好的视觉指导调优
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning
Junke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu...
TL;DR通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。