Feb, 2023
关于大型语言模型的规划能力(一项带有提议基准的关键调查)
On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)
Karthik Valmeekam, Sarath Sreedharan, Matthew Marquez, Alberto Olmo, Subbarao Kambhampati
TL;DR研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。