Mar, 2024

关于 LLMs 决策能力的探究:在多智能体环境中评估 LLMs 的游戏能力

TL;DR通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。