HAMMR: 分层多模态反应智能代理程序用于通用 VQA

Apr, 2024

HAMMR: 分层多模态反应智能代理程序用于通用 VQA

HAMMR: HierArchical MultiModal React agents for generic VQA

Lluis Castrejon, Thomas Mensink, Howard Zhou, Vittorio Ferrari, Andre Araujo...

TL;DR利用大型语言模型（LLMs）与外部专用工具（LLMs+tools）相结合是解决多模态任务（如视觉问答）的最新范式。本研究以统一的视角提出 VQA 问题，并在包括计数、空间推理、OCR-based 推理、视觉指向、外部知识等各种 VQA 任务中评估了单一系统。我们通过引入 HAMMR（HierArchical MultiModal React）提出了层次化的方法，该方法提高了 LLM+tools 方法的组合性，对于在通用 VQA 上获得高准确度至关重要。在我们的通用 VQA 测试集上，HAMMR 的性能超过了简单应用 LLM+tools 方法的 19.5%。此外，HAMMR 在该任务上取得了最新的最佳结果，超过了通用的独立 PaLI-X VQA 模型 5.0%。

Abstract

Combining large language models (LLMs) with external specialized tools (LLMs+tools) is a recent paradigm to solve multimodal tasks such as Visual Question Answering (VQA). While this approach was demonstrated to

large language models multimodal tasks visual question answering hammr compositionality

发现论文，激发创造

Wiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型

我们提出了一种名为 Wiki-LLaVA 的方法，通过一个分层检索流程，将多模态文档的外部知识源集成到 LLM 中，用作额外的上下文，从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验，并证明了该方法的适用性。

Apr, 2024

Tool-LMM：一个用于工具智能学习的大型多模态模型

通过使用多模态编码器将开源大语言模型（LLM）与多模态输入指令结合起来，我们提出了 Tool-LMM 系统，使学习的 LLMs 能够意识到多模态输入指令并正确选择匹配功能的工具，实验证明我们的 LMM 能够为多模态指令推荐适当的工具。

Jan, 2024

大型多模态代理：综述

大型语言模型在多媒体领域的研究和发展方向的全面回顾，介绍了大型多媒体代理的开发要素和分类，评估方法的编制以及未来研究方向的提出。

Feb, 2024

视觉问答指导：解锁面向特定领域视觉多任务的多模态大型语言模型

使用大型语言模型和多模态语言模型，我们开发了一种方法将特定领域的视觉和视觉 - 语言数据集转化为统一的问答格式，从而扩展了多模态语言模型用于特定领域任务，实验结果表明该方法在特定领域的视觉任务和视觉 - 语言任务上达到了高分数指标并保持了多任务的性能。

Feb, 2024

MM-PhyRLHF: 多模态物理问答的强化学习框架

我们提出了基于 LMM 的聊天机器人来回答多模态物理选择题，并通过使用 RLHF 和图像字幕技术来改善模型的性能。

Apr, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

大型语言模型为文本丰富的 VQA 带来的优势

基于文本识别的图像视觉问答是一个跨模态任务，需要图像理解和文本识别。本文研究了基于 LLM 方法在解决此问题时的优势和瓶颈，并通过整合 OCR 模块和 MLLM 发现多数 MLLM 可以理解 OCR 信息，为训练保留 LLM 能力提供了启示。

Nov, 2023

MRKE: 基于知识编辑的 LLMs 的多跳推理评估

利用修改的 HotpotQA 数据集为基础，我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准，并注释和评估了形式为子问题和中间答案的推理链，以此促进对 LLM 在多跳问答任务上的可信评估的发展。

Feb, 2024

异质代理镜像学习：协作多智能体强化学习的一系列解决方案

本文介绍了一种名为异构代理镜像学习（HAML）的新型框架，该框架提供了一种通用的 MARL 算法设计模板，解决了在奖励单调性或收敛时的非最优性能问题，通过证明来自 HAML 模板的算法满足单调改进联合奖励和收敛到纳什均衡的期望属性，并通过在星际争霸 II 和多智能体 MuJoCo 任务中验证了 HAML 的实用性。

Aug, 2022

II-MMR: 识别和改进多模式多跳推理在视觉问答中

本文介绍了一种新的方法 II-MMR，用于在视觉和语言（V&L）中进行多模多跳推理，通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示：（i）答案预测引导的 Chain-of-Thought（CoT）提示，或（ii）知识三元组引导的提示，找到了一个推理路径来回答 VQA 问题。II-MMR 观察到，在包括 GQA 和 A-OKVQA 的流行基准测试中，大多数 VQA 问题容易回答，只需要 “单跳” 推理，而只有很少的问题需要 “多跳” 推理。另外，尽管最近的 V&L 模型在传统的 CoT 方法下难以处理这些复杂的多跳推理问题，但 II-MMR 在零 - shot 和微调设置中展示了其在所有推理案例中的有效性。

Feb, 2024