Feb, 2025
不需要博士知识:大型语言模型的推理挑战
PhD Knowledge Not Required: A Reasoning Challenge for Large Language
Models
Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman...
TL;DR本研究针对现有基准测试中难以理解的“博士级”知识问题,提出了一种基于NPR周日谜题挑战的新基准,该基准仅要求一般知识。通过比较,我们发现OpenAI o1在推理能力上显著优于其他模型,揭示了现有基准测试未能体现的能力差距,并指出了模型推理输出的新类型失败。