Mar, 2025
ACPBench Hard:关于行动、变化和规划的无限制推理
ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning
TL;DR本研究针对现有模型在规划任务中的推理能力不足问题,提出了ACPBench Hard,一个开放式问题的生成版本,旨在更好地测试模型的推理能力。通过引入验证算法,我们发现即使是目前最先进的语言模型在这些任务中的表现仍然不佳,未能达到65%的准确率,表明在规划推理方面仍然存在显著的改进空间。