Jun, 2024

MARS:用多任务评估数据集评估语言模型的形而上学推理能力

TL;DR为了使大型语言模型(LLMs)能够成为具有可推广的推理能力的有意识的代理人,关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化(转换)的推理能力。我们提出了一种新颖的推理形式,称为 MetAphysical ReaSoning,它将分布变化的推理视为一个三步骤的判别过程,并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示,即使对于最先进的 LLMs 和经过微调的 LMs 而言,该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因,并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。