多智能体视觉问答：在零样本条件下探索多智能体基础模型

Mar, 2024

多智能体视觉问答：在零样本条件下探索多智能体基础模型

Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering

Bowen Jiang, Zhijun Zhuang, Shreyas S. Shivakumar, Dan Roth, Camillo J. Taylor

TL;DR本文研究了基于视觉问答（VQA）任务中基础模型的零 - shot 能力。我们提出了一种自适应多智能体系统，称为多智能体 VQA，通过使用专门的智能体作为工具，克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是，我们的研究重点在于系统在特定 VQA 数据集上不进行微调的性能，使其在开放世界中更实用和稳健。我们呈现了零 - shot 场景下的初步实验结果，并突出了一些失败案例，为未来的研究提供了新的方向。

Abstract

This work explores the zero-shot capabilities of foundation models in Visual Question Answering (VQA) tasks. We propose an adaptive multi-agent s

zero-shot capabilities foundation models visual question answering adaptive multi-agent system object detection

发现论文，激发创造

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

评估零射击 GPT-4V 在 3D 视觉问答基准测试上的表现

我们在 3D VQA 基准测试中评估了 GPT-4 Vision 和 GPT-4 等基础模型的零样本性能，发现没有任何微调的 GPT-based agents 在封闭词汇环境中表现与传统建模方法相当，我们还通过与以前的基准测试进行初步比较，希望为改进多模态 3D 基准测试的努力提供信息。

May, 2024

走向自顶向下推理：可解释的多代理视觉问答方法

本论文提出了一个可解释的多智能体协作框架，通过利用在广泛语料库上训练的大型语言模型中嵌入的知识，以人类认知为灵感，使用三个智能体，即探索者、回答者和整合者，进行自顶向下推理过程，从而明确地构建特定图像场景的多视图知识库，以自顶向下的处理方式推理答案。我们在多样化的视觉问答数据集和视觉语言模型上对我们的方法进行了广泛评估，并通过全面的实验结果证明了其广泛的适用性和可解释性。

Nov, 2023

使用知识图谱的零样本视觉问答

本研究提出了一种使用知识图谱和基于掩码的学习机制来更好地结合外部知识的零样本 VQA 算法，并在 F-VQA 数据集上提出了新的基于答案的零样本 VQA 切分。实验表明，我们的方法在处理未见过的答案方面可以实现最先进的性能，并显著增强现有的端到端模型在正常的 F-VQA 任务上的表现。

Jul, 2021

基于预训练模型的模块化零样本视觉问答

本文探讨如何利用预训练模型来支持零样本视觉问答，通过模块化的零样本网络将问题分解成子理性步骤，并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明，我们的方法比其他基线方法更具有效性和可解释性。

May, 2023

释放大型语言模型的潜力：洪水灾害场景下的无监督视觉问答（Zero-shot VQA）

基于大规模语言模型 CoT 链条提示的零样本 VQA 模型，通过构建 FFD-IQA 评估数据集，对洪水灾害进行损坏评估，并在复杂问题回答中展现了更好的性能。

Dec, 2023

Plug-and-Play VQA: 使用预训练模型进行零训练的零样例 VQA

提出了一种基于模块化框架的零样本视觉问答方法，使用自然语言和网络解释作为中间表示来连接预训练模型，无需额外训练预训练语言模型，实现了领先于最新端到端训练基线的全面表现，可在零样本 VQAv2 和 GQA 上实现最优结果。

Oct, 2022

交互式代理基础模型

提出了一种交互式代理基础模型，采用新颖的多任务代理训练范式，实现了跨领域、数据集和任务训练 AI 代理的能力，展示了其在机器人技术、游戏 AI 和医疗保健领域的性能，支持多模态和多任务学习。

Feb, 2024

无法回答的视觉问答

本研究旨在构建一个值得信赖的 AI 系统，通过为 Visual Question Answering（VQA）模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白，该数据集特别设计用于解决无法回答的问题。同时，通过对图像或问题进行有意的扰动，充分评估了多模式大型模型的零或少样本性能，并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准，从而增加 AI 系统的可信度。

Oct, 2023

探索零样本视觉问答的问题分解

通过研究和应用视觉 - 语言模型，本文提出了问题分解策略和模型驱动的选择性分解方法，以提高视觉问答任务的准确性和性能。

Oct, 2023