基于网格游戏竞赛的大型语言模型评估：一个可扩展的语言模型评测和排行榜

Jul, 2024

基于网格游戏竞赛的大型语言模型评估：一个可扩展的语言模型评测和排行榜

Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard

Oguzhan Topsakal, Colby Jacob Edell, Jackson Bailey Harper

TL;DR该研究通过基于网格的游戏，如井字棋、四子棋和五子棋，引入了一种新颖且可扩展的大规模语言模型（LLM）基准。通过开源的游戏模拟代码，可以让LLMs进行竞争，并生成JSON、CSV、TXT和PNG格式的详细数据文件，用于排行榜排名和进一步分析。研究结果显示在不同游戏和提示类型之间，LLMs的性能存在显著差异，涵盖了胜率、取消资格率、错失机会分析和无效移动分析。该研究增进了对LLMs在非特定训练游戏中的能力的理解，有助于评估它们的规则理解和战略思维能力，并为进一步探究在基于游戏的框架中LLMs的限制以及它们在复杂决策情境中的实用性奠定了基础。

Abstract

We introduce a novel and extensible benchmark for large language models (LLMs) through grid-based games such as Tic-Tac-Toe, Connect-Four,

发现论文，激发创造

大型语言模型生成游戏关卡

本文探讨了使用大型语言模型(LLMs)生成Sokoban游戏关卡的可行性及效果，发现LLMs能够生成关卡，且其性能随数据集规模的提高而显著提高。同时，文章也介绍了控制LLMs关卡生成器的初步实验结果，并探讨了未来研究的有 promising 的方向。

Feb, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型GPT-4和最弱模型Llama-2-70B之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了50%。

Nov, 2023

大型语言模型在星际争霸II中测试和一种摘要方法的链式

通过开发文本化的StratCraft II环境，利用大型语言模型代理实现游戏性能评估，研究表明大型语言模型代理在应对StarCraft II场景中具备相关知识和复杂规划能力，性能接近于玩了八年StarCraft II的普通玩家，并能够击败Harder(Lv5)的内置AI。

Dec, 2023

GTBench: 揭示LLMs的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

近期大型语言模型（LLM）在实现具备人类级智能的自主代理方面显示出了潜力，然而现有用于评估LLM代理的基准要么使用静态数据集，可能导致数据泄露，要么仅关注单一代理情景，忽略多代理交互的复杂性。我们引入了LLMArena，这是一个新颖且易于扩展的框架，用于评估LLM在多代理动态环境中的各种能力。LLMArena涵盖了七个不同的游戏环境，使用Trueskill评分来评估LLM代理的关键能力，包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的LLM进行广泛实验和人类评估，研究表明LLM在对手建模和团队协作方面仍有很长的发展道路，希望LLMArena能指导未来的研究，进一步增强LLM的这些能力，最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。

Feb, 2024

大型语言模型与游戏：调查与路线图

大语言模型（LLMs）在游戏中的应用和角色的综述和路线图，探讨了LLMs在游戏领域中未开发的领域和未来的发展方向。

Feb, 2024

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

关于LLMs决策能力的探究：在多智能体环境中评估LLMs的游戏能力

通过Game Theory基于GAMA-Bench框架评估LLMs的决策能力，研究发现GPT-3.5在鲁棒性方面表现出色，但其概括能力相对有限，通过Chain-of-Thought等方法可以提高其性能；此外，评估发现GPT-4在GAMA-Bench上表现最好，得分为72.5，而GPT-3.5的不断更新也标志着模型智能的显着提高。

Mar, 2024

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

利用大型语言模型自我对弈进行对话游戏的研究，旨在探索其普适性、评估模型的性能，并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础，或最终建立模型和模拟评估器的闭环开发环境。

May, 2024

大规模语言模型是否是战略决策者？两人非零和博弈中的性能与偏差研究

调研表明，尽管Large Language Models（LLMs）能够以精心策划的提示解决特定任务，但在问题设置或提示改变时，它们表现出偏向不同的策略，导致性能下降。因此，我们研究了LLMs在战略游戏中的行为，分析了不同设置和提示下的性能变化，并发现它们存在至少一种系统性偏向，即(1) 位置偏向，(2) 收益偏向或(3) 行为偏向。此外，我们观察到LLMs的偏向与正确动作是否一致会影响它们的表现。然而，当前流行的追求“更大、更新”的趋势在此领域不适用，目前最佳表现的LLM（GPT-4o）的性能下降最为显著。最后，我们注意到，尽管思维链提示确实减少了对大多数模型的偏向影响，但在根本上解决这个问题仍然存在困难。

Jul, 2024