Feb, 2024

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

TL;DR近期大型语言模型(LLM)在实现具备人类级智能的自主代理方面显示出了潜力,然而现有用于评估 LLM 代理的基准要么使用静态数据集,可能导致数据泄露,要么仅关注单一代理情景,忽略多代理交互的复杂性。我们引入了 LLMArena,这是一个新颖且易于扩展的框架,用于评估 LLM 在多代理动态环境中的各种能力。LLMArena 涵盖了七个不同的游戏环境,使用 Trueskill 评分来评估 LLM 代理的关键能力,包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的 LLM 进行广泛实验和人类评估,研究表明 LLM 在对手建模和团队协作方面仍有很长的发展道路,希望 LLMArena 能指导未来的研究,进一步增强 LLM 的这些能力,最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。