Sep, 2024

关于OpenAI的o1模型的规划能力:可行性、最优性和可推广性

TL;DR本研究针对大型语言模型在规划能力方面的不足,评估了OpenAI的o1模型在多项基准任务中的表现,重点关注可行性、最优性和可推广性。研究发现,虽然后者在遵循任务约束方面优于GPT-4,但在空间复杂任务中的泛化能力和决策记忆管理仍存在瓶颈,为未来提升语言模型的规划能力提供了重要方向。