游戏遍历基准：通过遍历 2D 游戏地图评估大型语言模型的规划能力

Oct, 2024

游戏遍历基准：通过遍历 2D 游戏地图评估大型语言模型的规划能力

GameTraversalBenchmark: Evaluating Planning Abilities Of Large Language Models Through Traversing 2D Game Maps

Muhammad Umair Nasir, Steven James, Julian Togelius

TL;DR本研究解决了大型语言模型在规划能力上的评估空缺，提出了一个名为游戏遍历基准（GTB）的新颖测试方法。研究发现，尽管GPT-4-Turbo在基准测试中表现最佳，其得分仅为44.97%，显示出现有模型在这个领域仍面临挑战，提示了后续研究的潜力和方向。

Abstract

Large Language Models (LLMs) have recently demonstrated great success in generating and understanding natural language. While they have also shown potential beyond the domain of natural language, it remains an open question as to what extent and in which way these LLMs can plan. We inv

发现论文，激发创造

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型GPT-4和最弱模型Llama-2-70B之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了50%。

Nov, 2023

GTBench: 揭示LLMs的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

大型语言模型与游戏：调查与路线图

大语言模型（LLMs）在游戏中的应用和角色的综述和路线图，探讨了LLMs在游戏领域中未开发的领域和未来的发展方向。

Feb, 2024

GameBench：评估LLM代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准(GameBench)显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT和RAP）能够提高分数。

Jun, 2024

基于网格游戏竞赛的大型语言模型评估：一个可扩展的语言模型评测和排行榜

该研究通过基于网格的游戏，如井字棋、四子棋和五子棋，引入了一种新颖且可扩展的大规模语言模型（LLM）基准。通过开源的游戏模拟代码，可以让LLMs进行竞争，并生成JSON、CSV、TXT和PNG格式的详细数据文件，用于排行榜排名和进一步分析。研究结果显示在不同游戏和提示类型之间，LLMs的性能存在显著差异，涵盖了胜率、取消资格率、错失机会分析和无效移动分析。该研究增进了对LLMs在非特定训练游戏中的能力的理解，有助于评估它们的规则理解和战略思维能力，并为进一步探究在基于游戏的框架中LLMs的限制以及它们在复杂决策情境中的实用性奠定了基础。

Jul, 2024

PLUGH：用于大型语言模型空间理解和推理的基准

本研究提出了PLUGH基准，旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务，研究发现尽管某些商业模型表现优异，开源模型也能够接近同等水平，但仍存在显著改进空间。研究还识别了LLM失败的典型原因，并探讨了应对策略。

Aug, 2024

LogicGame：基准测试大型语言模型的规则基础推理能力

本研究针对大型语言模型在规则理解和执行能力评估方面的不足，提出了一个新的基准测试工具LogicGame。该工具通过多样化的游戏场景，强调依据预定义规则进行推理和规划的能力，发现了现有模型在规则基础推理方面的显著缺陷，从而推动了对其决策系统的改进。

Aug, 2024

LogicGame：评估大型语言模型的基于规则的推理能力

本研究针对大型语言模型在基于规则的推理和规划能力评估不足的问题，提出了一个新颖的基准工具LogicGame。该基准通过设计含有多项规则的游戏场景，评估模型对规则理解、执行和规划的能力，研究发现许多模型在基于规则的逻辑推理方面存在显著不足，对未来的决策系统与智能体设计具有重要影响。

Aug, 2024

LogicGame：大语言模型基于规则推理能力的基准测试

本研究针对大语言模型（LLMs）在基于规则的推理和计划执行能力评估的不足，提出了LogicGame基准测试。该方法通过设定多样化游戏场景，评估模型对规则的理解、执行及规划能力，并发现其在这些方面存在显著不足，具有重要的实践价值。

Aug, 2024

TMGBench：评估大型语言模型战略推理能力的系统性游戏基准

本研究解决了评估大型语言模型(LM)战略推理能力的现有基准覆盖范围有限、情境缺乏多样性的问题。TMGBench引入了全新的游戏类型和情景，采用合成数据生成方式，构建出多样化的、高质量的故事化游戏。研究发现流行的LM在理性推理、一致性及心智理论等方面存在不足，同时显示TMGBench在评估现代模型时的挑战性。

Oct, 2024