评估零射击 GPT-4V 在 3D 视觉问答基准测试上的表现

CVPRMay, 2024

评估零射击 GPT-4V 在 3D 视觉问答基准测试上的表现

Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks

Simranjit Singh, Georgios Pavlakos, Dimitrios Stamoulis

TL;DR我们在 3D VQA 基准测试中评估了 GPT-4 Vision 和 GPT-4 等基础模型的零样本性能，发现没有任何微调的 GPT-based agents 在封闭词汇环境中表现与传统建模方法相当，我们还通过与以前的基准测试进行初步比较，希望为改进多模态 3D 基准测试的努力提供信息。

Abstract

As interest in "reformulating" the 3d visual question answering (VQA) problem in the context of foundation models grows, it is imperative to assess how these new paradigms influence existing closed-vocabulary dat

3d visual question answering foundation models zero-shot performance gpt-based agents closed-vocabulary settings

发现论文，激发创造

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力

GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.

Nov, 2023

GPT4Vis：GPT-4 能为零样本视觉识别做什么？

本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

Nov, 2023

多智能体视觉问答：在零样本条件下探索多智能体基础模型

本文研究了基于视觉问答（VQA）任务中基础模型的零 - shot 能力。我们提出了一种自适应多智能体系统，称为多智能体 VQA，通过使用专门的智能体作为工具，克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是，我们的研究重点在于系统在特定 VQA 数据集上不进行微调的性能，使其在开放世界中更实用和稳健。我们呈现了零 - shot 场景下的初步实验结果，并突出了一些失败案例，为未来的研究提供了新的方向。

Mar, 2024

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

在线视觉问答中 GPT-4V 和 Gemini 的评估

我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了这两个模型的最具挑战性的问题。

Dec, 2023

基于预训练模型的模块化零样本视觉问答

本文探讨如何利用预训练模型来支持零样本视觉问答，通过模块化的零样本网络将问题分解成子理性步骤，并将子任务分配给适当的预训练模型以实现更好的可解释性。实验表明，我们的方法比其他基线方法更具有效性和可解释性。

May, 2023

Plug-and-Play VQA: 使用预训练模型进行零训练的零样例 VQA

提出了一种基于模块化框架的零样本视觉问答方法，使用自然语言和网络解释作为中间表示来连接预训练模型，无需额外训练预训练语言模型，实现了领先于最新端到端训练基线的全面表现，可在零样本 VQAv2 和 GQA 上实现最优结果。

Oct, 2022

利用 GPT-4 视觉进行零样本点云理解

我们研究了在点云中分类物体类别的挑战，通过使用 GPT-4 Vision（GPT-4V）的先进生成能力，我们的方法能够处理复杂的 3D 数据，在不改变底层模型架构的情况下实现了零样本识别能力，并通过系统策略进行点云图像可视化，提高了 GPT-4V 的效率。实验证明了我们方法在各种情景下的优越性，设定了零样本点云分类的新基准。

Jan, 2024

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022