Feb, 2024

GTBench: 揭示 LLMs 的战略推理限制:基于博弈论评估

TL;DR通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。