Nov, 2023

LLaVA-Plus: 学习使用创建多模态代理的工具

TL;DRLLaVA-Plus 是一个通用的多模态助手,扩展了大型多模态模型的功能,它通过在用户输入的基础上激活相关工具,并维护了一个预训练的视觉和视觉语言模型的技能存储库,以实现实际任务。实证结果表明,LLaVA-Plus 在现有功能上优于 LLaVA,并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处,显著提高了工具使用性能并实现了新的场景。