LLaVA-Interactive: 图像聊天、分割、生成和编辑的一体化演示

Nov, 2023

LLaVA-Interactive: 图像聊天、分割、生成和编辑的一体化演示

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li

TL;DRLLaVA-Interactive 是一种用于多模态人工智能交互的研究原型系统，其能够通过获取多模态用户输入和生成多模态响应与用户进行多轮对话。该系统具有可视化提示功能，以对齐人类意图，同时还结合了 LLaVA 的可视化聊天、SEEM 的图像分割以及 GLIGEN 的图像生成和编辑等三种多模态技能，从而具备了成本极低的开发。该论文通过展示多样的应用场景，展示了 LLaVA-Interactive 系统的潜力，并激发了未来研究多模态交互系统的灵感。

Abstract

llava-interactive is a research prototype for multimodal human-AI interaction. The system can have multi-turn dialogues with human users by taking multimodal user inputs and generating multimodal responses. Impor

llava-interactive multimodal human-ai interaction dialogues visual prompt multimodal interactive systems

发现论文，激发创造

LLaVA-Plus: 学习使用创建多模态代理的工具

LLaVA-Plus 是一个通用的多模态助手，扩展了大型多模态模型的功能，它通过在用户输入的基础上激活相关工具，并维护了一个预训练的视觉和视觉语言模型的技能存储库，以实现实际任务。实证结果表明，LLaVA-Plus 在现有功能上优于 LLaVA，并展示出新的功能。它在直接基于图像查询和整个人工智能与人类交互过程中积极参与中具有独特之处，显著提高了工具使用性能并实现了新的场景。

Nov, 2023

利用 LLaVA 提示和负面提示提升图像生成

通过利用大型语言与视觉助手（LLaVA）的多模态能力，本文提出了一种增强图像 - 图像生成的新方法。LLaVA 分析输入图像并生成文本描述，即 LLaVA 生成的提示。这些提示与原始图像一起输入到图像 - 图像生成流程中，丰富的表示指导生成过程以展现更强的输入图像相似性。广泛的实验证明了 LLaVA 生成的提示在促进图像相似性方面的有效性。与传统方法相比，我们观察到生成图像和输入图像之间视觉一致性的显著改进。未来的工作将探索对 LLaVA 提示进行微调，以更好地控制创造过程。通过在提示中提供更具体的细节，我们旨在在生成的输出中实现对原始图像的忠实性和艺术表现之间的微妙平衡。

Jun, 2024

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

Yo'LLaVA: 个性化语言和视觉助手

本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法，通过少量示例图像有效地学习并更有效地编码视觉属性，用于实现 Large Multimodal Models（LMMs）与特定主题的对话。

Jun, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

LLaVA-$φ$: 高效的多模态助手与小型语言模型

介绍了 LLaVA-Phi，一种高效的多模态助手，利用最近先进的小型语言模型 Phi-2 的强大能力来促进多模态对话，并展示了即使是参数只有 27 亿的小型语言模型，只要用高质量的语料库进行训练，也能在集成文本和视觉元素的复杂对话中有效参与。该模型在公开可用的视觉理解、推理和基于知识的感知的基准测试中表现出色。除了在多模态对话任务中取得卓越性能外，模型还为时间敏感环境和需要实时交互的系统（如具身代理）的应用开辟了新的方向，突显了小型语言模型在实现复杂的理解和交互水平时保持更高资源效率的潜力。

Jan, 2024

AVA：通过视觉感知驱动的决策使成为自主可视化代理

我们的研究探索多模式基础模型在可视化中的应用，利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs)，它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架，并展示了几种使用场景，以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择，即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明，这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈，并结合了他们的反馈，突出了 AVAs 的实用性和潜力。我们的研究表明，AVAs 代表了一种设计智能化可视化系统的通用范式，可实现高级可视化目标，为未来发展专家级可视化代理人铺平了道路。

Dec, 2023

LVLM-Intrepret：大规模视觉语言模型的解释性工具

人们对于多模态大型语言模型及其内部机制的理解仍然是复杂的任务，因此该研究提出了一个新颖的交互应用来提高图像补丁的可解释性，并评估语言模型将输出与图像联系起来的效果，通过系统性地研究模型来发现系统的局限性，为提升系统功能铺平道路，案例研究证明该应用在理解流行的大型多模态模型（LLaVA）故障机制方面的作用。

Apr, 2024

生成式视觉指导调整

使用机器生成的指令跟随数据，通过集成对生成和图像编辑任务的支持，我们改进了一个大型多模态模型的零样本能力。我们构建了一个新的多模态指令跟随数据集，并使用 GPT-4V 和现有的图像生成和编辑数据集。通过三种类型的大型预训练模型的指令微调策略（语言模型的 LLaMA，图像文本匹配的 SigLIP，文本到图像生成的 StableDiffusion），我们建立了 GenLLaVA，一个生成性的大型语言与视觉助手。我们的模型在视觉理解任务上表现出与 LLaVA 相当的能力，并且与 Unified-IO 2 等本地多模态模型展示了有竞争力的结果，为构建先进的通用视觉助手铺平了道路。我们公开了数据集、代码库和模型检查点，以促进该领域的进一步研究与应用。

Jun, 2024