Aug, 2024

BattleAgentBench: 评估语言模型在多智能体系统中合作与竞争能力的基准

TL;DR本研究针对现有多智能体系统中语言模型合作能力评估不足的问题,提出了一种新的基准—BattleAgentBench,该基准涵盖了七个子阶段的多种难度级别,并进行细致的能力评估。研究发现,尽管API模型在简单任务上表现优异,但小型开源模型在简单任务中的表现却令人失望,且在复杂合作与竞争任务中仍有较大的改进空间。