Jun, 2024

现实中的爱丽丝奇境:显示顶尖大型语言模型完整推理过程的简单任务

TL;DR大型语言模型在各种任务和条件中以零样本或零曝光的方式表现出色,但我们的研究发现在某些基本推理能力上表现出严重的缺陷,需要迅速重新评估当前一代 LLM 的所声称的能力,并创建新的标准评测以发现这些明显被当前评测方法忽视的基本推理缺陷。