Feb, 2024
ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发
ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model
Guiming Hardy Chen, Shunian Chen, Ruifei Zhang, Junying Chen, Xiangbo Wu...
TL;DR利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案,通过合成数据集,我们训练了 ALLaVA 模型,该模型在 12 个基准测试中取得了竞争性的性能,展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。