Jun, 2022
大型语言模型仍无法规划 (面向规划和变化推理的LLM基准测试)
Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning
and Reasoning about Change)
TL;DR该研究提出了一种可扩展的评估框架来测试LLMs在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于LLMs推理能力的夸张的说法,并展示了GPT-3、Instruct-GPT3和BLOOM对这些任务的表现不佳。