Sep, 2024

LLMs仍然无法规划;LRMs能做到吗?OpenAI的o1在PlanBench上的初步评估

TL;DR本研究针对当前大语言模型(LLMs)在规划能力上的不足,评估了OpenAI的新模型o1(草莓)的表现。通过在PlanBench基准上的实证分析,发现o1在规划能力上有显著提升,但仍未达到饱和状态,且在准确性和效率等方面仍需进一步研究以确保其可靠性。