Nov, 2023

LLaVA-Interactive: 图像聊天、分割、生成和编辑的一体化演示

TL;DRLLaVA-Interactive 是一种用于多模态人工智能交互的研究原型系统,其能够通过获取多模态用户输入和生成多模态响应与用户进行多轮对话。该系统具有可视化提示功能,以对齐人类意图,同时还结合了 LLaVA 的可视化聊天、SEEM 的图像分割以及 GLIGEN 的图像生成和编辑等三种多模态技能,从而具备了成本极低的开发。该论文通过展示多样的应用场景,展示了 LLaVA-Interactive 系统的潜力,并激发了未来研究多模态交互系统的灵感。