Apr, 2023

视觉指令调整

TL;DR本文利用语言模型GPT-4生成多模态图文指令序列来优化多模态模型,得到了新的模型LLaVA并在多个数据集上表现出色。