Oct, 2023

SmartPlay: LLM为智能化代理测试基准

TL;DR近期的大型语言模型(LLMs)展示了在智能代理和下一代自动化方面的巨大潜力,但目前缺乏一个系统性的基准来评估LLMs作为代理的能力。我们介绍了SmartPlay:一个具有挑战性的基准和评估LLMs作为代理的方法论。SmartPlay包括6个不同的游戏,包括石头剪刀布、汉诺塔、Minecraft。每个游戏都有独特的设定,提供最多20个评估设置和无限的环境变化。SmartPlay中的每个游戏独特地挑战了智能LLM代理的9个重要能力的子集,包括处理对象的依赖关系、提前规划、空间推理、从历史中学习和理解随机性。每个游戏测试的能力集之间的区别使我们能够单独分析每个能力。SmartPlay不仅是一个用于评估LLM代理整体性能的严格的测试平台,也是识别当前方法论中的空白的路线图。我们在github.com/LLMsmartplay/SmartPlay发布了我们的基准。