Aug, 2023

AgentBench: 评估语言模型为代理人

TL;DR大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。