CLOVA：带有工具使用和更新的封闭循环视觉助手

Dec, 2023

CLOVA：带有工具使用和更新的封闭循环视觉助手

CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update

Zhi Gao, Yuntao Du, Xintong Zhang, Xiaojian Ma, Wenjuan Han...

TL;DR本文介绍了一种闭环视觉助手 CLOVA，利用大型语言模型（LLMs）将现成工具集成在一起，通过推理、反馈和学习三个阶段来解决视觉助手在新环境中推广使用的能力有限的问题。实验结果显示，CLOVA 在视觉问题回答、知识标注和图像编辑任务方面的性能均超过其他方法。

Abstract

Leveraging large language models (LLMs) to integrate off-the-shelf tools (e.g., visual models and image processing functions) is a promising research direction to build powerful visual assistants for solving dive

large language models visual assistants learning capability closed-loop framework new environments

发现论文，激发创造

LLaVA-Plus: 学习使用创建多模态代理的工具

LLaVA-Plus 是一个通用的多模态助手，扩展了大型多模态模型的功能，它通过在用户输入的基础上激活相关工具，并维护了一个预训练的视觉和视觉语言模型的技能存储库，以实现实际任务。实证结果表明，LLaVA-Plus 在现有功能上优于 LLaVA，并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处，显著提高了工具使用性能并实现了新的场景。

Nov, 2023

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA 是一种大型语言 3D 助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的 3D 场景中消除歧义。实验证明，LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果，并超越了各种 3D 视觉语言模型。

Nov, 2023

BLIVA：一个简单的多模态 LLM 用于更好地处理文本丰富的视觉问题

通过在语言模型中添加视觉理解能力，BLIVA 能够显著提高处理富含文本的视觉问答任务的性能，并在典型的视觉问答基准上取得了较高的准确率。

Aug, 2023

SQ-LLaVA: 大规模视觉语言助手的自问自答

近期视觉语言模型的进展在视觉指导调整后，在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息，训练模型进行自我监督学习以提问高质量问题，引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力，与传统的视觉指导调整方法相比，将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能，突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。

Mar, 2024

Yo'LLaVA: 个性化语言和视觉助手

本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法，通过少量示例图像有效地学习并更有效地编码视觉属性，用于实现 Large Multimodal Models（LMMs）与特定主题的对话。

Jun, 2024

TOOLVERIFIER：通过自验证实现针对新工具的泛化

通过自我验证方法，在语言模型中学习使用工具是构建通用助手的重要里程碑，但仍然是一个尚未解决的问题。本研究介绍了一种通过自我对比问题在工具选择和参数生成过程中区分相似候选项的方法。在 ToolBench 基准测试的四个任务上进行了大量实验，包括了 17 个之前未见的工具，结果显示相较于少样本基准线平均提高了 22％，即使在候选工具之间的区别非常微妙的情况下也能有效改进。

Feb, 2024

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

LLaVA-Interactive: 图像聊天、分割、生成和编辑的一体化演示

LLaVA-Interactive 是一种用于多模态人工智能交互的研究原型系统，其能够通过获取多模态用户输入和生成多模态响应与用户进行多轮对话。该系统具有可视化提示功能，以对齐人类意图，同时还结合了 LLaVA 的可视化聊天、SEEM 的图像分割以及 GLIGEN 的图像生成和编辑等三种多模态技能，从而具备了成本极低的开发。该论文通过展示多样的应用场景，展示了 LLaVA-Interactive 系统的潜力，并激发了未来研究多模态交互系统的灵感。

Nov, 2023

LOVA3：学习视觉问答、提问和评估

通过引入名为 LOVA3 的创新框架，我们的研究旨在扩展 Multimodal Large Language Models（MLLMs）的能力，包括回答、提问和评估问题，在提高多模态理解能力和性能方面取得了一致的改进。

May, 2024