人类、GPT-4 和 GPT-4V 在抽象和推理任务上的比较

Nov, 2023

人类、GPT-4 和 GPT-4V 在抽象和推理任务上的比较

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks

Melanie Mitchell, Alessandro B. Palmarini, Arseny Moskvichev

TL;DR我们探索了 GPT-4 的纯文本和多模态版本的抽象推理能力，使用 ConceptARC 基准测试评估核心概念的严谨理解和推理能力。我们通过在更详细的一次性提示上评估纯文本版本的 ConceptARC 任务（而不是简单的零次提示），以及通过使用最简单任务的图像版本在零次和一次提示上评估 GPT-4 的多模态版本 GPT-4V，扩展了 Moskvichev 等人的工作。我们的实验结果支持结论：GPT-4 的任何版本都没有达到人类水平的严谨抽象能力。

Abstract

We explore the abstract reasoning abilities of text-only and multimodal versions of gpt-4, using the →

abstract reasoning abilities gpt-4 multimodal conceptarc benchmark robust abstraction abilities

发现论文，激发创造

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

GPT-3.5 与 GPT-4：在零样本学习中评估 ChatGPT 的推理性能

本文对 GPT-3.5 和 GPT-4 进行全面技术评估，发现 GPT-4 在几乎所有测试任务中优于 GPT-3.5，并提出一组改良数据来提高两种模型的零样本学习能力。

May, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

评估 ChatGPT 和 GPT-4 的逻辑推理能力

本研究评估了 GPT-4 在逻辑推断任务中的性能，包括多项逻辑推断数据集的测试以及构建一个逻辑推理离散数据集进行实验。结论显示，尽管 GPT-4 表现优异，但逻辑推理对 ChatGPT 和 GPT-4 来说仍然是一项挑战。

Apr, 2023

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

LLMs 与抽象推理数据集：成功、失败及基于对象表示的重要性

本文探讨了大型语言模型在抽象推理问题中的解决能力，提出了基于物体表示的解决方案，解决了 ARC 数据集中的 13 个问题，并在 1D-ARC 数据集上取得了接近完美的成绩。

May, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

心智与机器的交汇：揭密 GPT-4 的认知心理学

本研究评估了 GPT-4 在常识推理问题上的表现，重点关注 CommonsenseQA 数据集中的问题，发现 GPT-4 的准确性达到 83％，虽然没有达到人类的水平，但是表现出了很好的潜力，可推动人工智能领域的发展。

Mar, 2023

GPT-4V 带情感属性：多模态情感理解的零样本基准测试

GPT-4V quantitatively evaluates its capabilities in multimodal emotion understanding, showcasing impressive results and establishing a zero-shot benchmark for future research.

Dec, 2023