Nov, 2023

人类、GPT-4 和 GPT-4V 在抽象和推理任务上的比较

TL;DR我们探索了 GPT-4 的纯文本和多模态版本的抽象推理能力,使用 ConceptARC 基准测试评估核心概念的严谨理解和推理能力。我们通过在更详细的一次性提示上评估纯文本版本的 ConceptARC 任务(而不是简单的零次提示),以及通过使用最简单任务的图像版本在零次和一次提示上评估 GPT-4 的多模态版本 GPT-4V,扩展了 Moskvichev 等人的工作。我们的实验结果支持结论:GPT-4 的任何版本都没有达到人类水平的严谨抽象能力。