Oct, 2023

MCU: 面向任务的Minecraft开放式智能体评估框架

TL;DR为了实现在Minecraft中创建一个开放式智能体的目标,本文介绍了一种名为MCU的以任务为中心的框架,该框架利用原子任务作为基本组成部分,能够生成多样甚至任意任务。MCU框架通过六个不同的难度评分来衡量每个任务(时间消耗、操作工作量、规划复杂度、复杂性、创造力、新颖性),从不同角度对任务进行多维度评估,可以揭示智能体在特定方面的能力。任务的难度评分也作为每个任务的特征,从而创建了一个有意义的任务空间并揭示了任务之间的关系。为了高效评估使用MCU框架的Minecraft智能体,我们维护了一个统一的基准,名为SkillForge,其中包括具有不同类别和难度分布的代表性任务,并为用户提供了方便的筛选器,以评估智能体的特定能力。我们展示了MCU具有高表达性,能够涵盖最近文献中使用的Minecraft智能体任务,并强调了在开发面向开放式Minecraft智能体的目标下在创造力、精确控制和超出分布的普遍化等领域的需求的重要性。