Aug, 2024

PLUGH:用于大型语言模型空间理解和推理的基准

TL;DR本研究提出了PLUGH基准,旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务,研究发现尽管某些商业模型表现优异,开源模型也能够接近同等水平,但仍存在显著改进空间。研究还识别了LLM失败的典型原因,并探讨了应对策略。