Feb, 2024

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

TL;DR利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。