Mar, 2024
关于 LLMs 决策能力的探究:在多智能体环境中评估 LLMs 的游戏能力
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments
Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang...
TL;DR通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。