GPT4Vis：GPT-4 能为零样本视觉识别做什么？

Nov, 2023

GPT4Vis：GPT-4 能为零样本视觉识别做什么？

GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?

Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang...

TL;DR本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

Abstract

This paper does not present a novel method. Instead, it delves into an essential, yet must-know baseline in light of the latest advancements in Generative Artificial Intelligence (GenAI): the utilization of gpt-4 for visual understanding. Our study centers on the evaluation of

gpt-4 zero-shot visual recognition linguistic capabilities visual proficiency benchmark datasets

发现论文，激发创造

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

利用 GPT-4 视觉进行零样本点云理解

我们研究了在点云中分类物体类别的挑战，通过使用 GPT-4 Vision（GPT-4V）的先进生成能力，我们的方法能够处理复杂的 3D 数据，在不改变底层模型架构的情况下实现了零样本识别能力，并通过系统策略进行点云图像可视化，提高了 GPT-4V 的效率。实验证明了我们方法在各种情景下的优越性，设定了零样本点云分类的新基准。

Jan, 2024

GPT-4V 带情感属性：多模态情感理解的零样本基准测试

GPT-4V quantitatively evaluates its capabilities in multimodal emotion understanding, showcasing impressive results and establishing a zero-shot benchmark for future research.

Dec, 2023

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4 作为科学图注的有效零样学习评估器

使用大型语言模型（LLMs）作为一种经济的、无需参考的方法来评估科学图的标题，通过与人类学术专家评估和其他模型评估相比较，GPT-4 在评估中表现出色，甚至超过了计算机科学与信息学本科生的评估结果。

Oct, 2023

评估零射击 GPT-4V 在 3D 视觉问答基准测试上的表现

我们在 3D VQA 基准测试中评估了 GPT-4 Vision 和 GPT-4 等基础模型的零样本性能，发现没有任何微调的 GPT-based agents 在封闭词汇环境中表现与传统建模方法相当，我们还通过与以前的基准测试进行初步比较，希望为改进多模态 3D 基准测试的努力提供信息。

May, 2024

探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力

GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.

Nov, 2023

用 GPT-4 增强 CLIP：利用视觉描述作为提示

我们展示了如何使用 GPT-4 生成视觉描述性文本，并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比，在专门的细粒度数据集上，我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器，学习选择最佳的句子来构建具有优越性能的可推广分类器。

Jul, 2023