Jul, 2024

GRASP:用于评估常识空间推理的基于网格的基准测试

TL;DR利用16,000个基于网格的环境构建了一个名为GRASP的大规模基准,用于对比经典基线方法和先进的LLMs(如GPT-3.5-Turbo和GPT-4o)在空间推理场景中解决能量收集问题的表现。实验结果表明,即使是这些先进的LLMs也很难一直实现令人满意的解决方案。