Apr, 2023

视觉指令调整

TL;DR本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型,得到了新的模型 LLaVA 并在多个数据集上表现出色。