Jul, 2024

基于网格游戏竞赛的大型语言模型评估:一个可扩展的语言模型评测和排行榜

TL;DR该研究通过基于网格的游戏,如井字棋、四子棋和五子棋,引入了一种新颖且可扩展的大规模语言模型(LLM)基准。通过开源的游戏模拟代码,可以让 LLMs 进行竞争,并生成 JSON、CSV、TXT 和 PNG 格式的详细数据文件,用于排行榜排名和进一步分析。研究结果显示在不同游戏和提示类型之间,LLMs 的性能存在显著差异,涵盖了胜率、取消资格率、错失机会分析和无效移动分析。该研究增进了对 LLMs 在非特定训练游戏中的能力的理解,有助于评估它们的规则理解和战略思维能力,并为进一步探究在基于游戏的框架中 LLMs 的限制以及它们在复杂决策情境中的实用性奠定了基础。