LLaVA-Plus: 学习使用创建多模态代理的工具

Nov, 2023

LLaVA-Plus: 学习使用创建多模态代理的工具

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li...

TL;DRLLaVA-Plus 是一个通用的多模态助手，扩展了大型多模态模型的功能，它通过在用户输入的基础上激活相关工具，并维护了一个预训练的视觉和视觉语言模型的技能存储库，以实现实际任务。实证结果表明，LLaVA-Plus 在现有功能上优于 LLaVA，并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处，显著提高了工具使用性能并实现了新的场景。

Abstract

llava-plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository

llava-plus multimodal assistant skill repository vision real-world tasks

发现论文，激发创造

LLaVA-Interactive: 图像聊天、分割、生成和编辑的一体化演示

LLaVA-Interactive 是一种用于多模态人工智能交互的研究原型系统，其能够通过获取多模态用户输入和生成多模态响应与用户进行多轮对话。该系统具有可视化提示功能，以对齐人类意图，同时还结合了 LLaVA 的可视化聊天、SEEM 的图像分割以及 GLIGEN 的图像生成和编辑等三种多模态技能，从而具备了成本极低的开发。该论文通过展示多样的应用场景，展示了 LLaVA-Interactive 系统的潜力，并激发了未来研究多模态交互系统的灵感。

Nov, 2023

LLaVA-$φ$: 高效的多模态助手与小型语言模型

介绍了 LLaVA-Phi，一种高效的多模态助手，利用最近先进的小型语言模型 Phi-2 的强大能力来促进多模态对话，并展示了即使是参数只有 27 亿的小型语言模型，只要用高质量的语料库进行训练，也能在集成文本和视觉元素的复杂对话中有效参与。该模型在公开可用的视觉理解、推理和基于知识的感知的基准测试中表现出色。除了在多模态对话任务中取得卓越性能外，模型还为时间敏感环境和需要实时交互的系统（如具身代理）的应用开辟了新的方向，突显了小型语言模型在实现复杂的理解和交互水平时保持更高资源效率的潜力。

Jan, 2024

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

CLOVA：带有工具使用和更新的封闭循环视觉助手

本文介绍了一种闭环视觉助手 CLOVA，利用大型语言模型（LLMs）将现成工具集成在一起，通过推理、反馈和学习三个阶段来解决视觉助手在新环境中推广使用的能力有限的问题。实验结果显示，CLOVA 在视觉问题回答、知识标注和图像编辑任务方面的性能均超过其他方法。

Dec, 2023

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

Yo'LLaVA: 个性化语言和视觉助手

本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法，通过少量示例图像有效地学习并更有效地编码视觉属性，用于实现 Large Multimodal Models（LMMs）与特定主题的对话。

Jun, 2024

HyperLLaVA：基于动态视觉和语言专家调整的多模态大型语言模型

通过使用 HyperLLaVA 和 HyperNetworks，我们在多模态大型语言模型方面取得了巨大的进展，并在多个基准测试中显著超越了现有的解决方案。

Mar, 2024

AvaTaR：优化 LLM 代理以实现辅助工具的知识检索

AvaTaR 是一种利用外部工具和知识来提高准确性和降低幻觉的新颖且自动化的框架，通过设计比较模块来为大语言模型代理提供有洞察力和整体性的提示，优化其在给定任务 / 领域上的表现，在四个复杂的多模式检索数据集上表现出色，并在新领域中展现强大的泛化能力，Hit@1 指标平均相对改进 14%。

Jun, 2024

视觉指令调整

本文利用语言模型 GPT-4 生成多模态图文指令序列来优化多模态模型，得到了新的模型 LLaVA 并在多个数据集上表现出色。

Apr, 2023

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024