Polycraft World AI Lab（PAL）：一个可扩展的人工智能代理评估平台

Jan, 2023

Polycraft World AI Lab（PAL）：一个可扩展的人工智能代理评估平台

Polycraft World AI Lab (PAL): An Extensible Platform for Evaluating Artificial Intelligence Agents

Stephen A. Goss, Robert J. Steininger, Dhruv Narayanan, Daniel V. Olivença, Yutong Sun...

TL;DR介绍了 Polycraft World AI Lab，它是一个基于 Minecraft 模组的任务模拟器，为不同架构的人工智能代理提供 API，允许在多种任务中进行交互、训练和评估，该平台具有灵活的建立任务的方式和评估期间操作的记录，是一个通用且易于使用的人工智能评估平台。

Abstract

As artificial intelligence research advances, the platforms used to evaluate ai agents need to adapt and grow to continue to challenge them. We present the →

artificial intelligence polycraft world ai lab minecraft evaluation platform ai agents

发现论文，激发创造

Plan4MC：针对开放世界 Minecraft 任务的技能强化学习和规划

在 Minecraft 环境中，我们使用强化学习技术训练多任务代理，将任务分解成学习基本技能和规划技能这两个步骤，通过提出三种细粒度的基本技能，搭配内在奖励机制使用强化学习训练代理，在学会技能后，我们使用大型语言模型建立技能图模型，并提出技能搜索算法为代理生成适当的技能计划。在实验中，我们成功的完成了 24 个不同的 Minecraft 任务，并得到了比基线算法更好的表现。

Mar, 2023

MP5: 基于主动感知的多模态开放式系统在 Minecraft 中的实体化

设计了一个使用多模态方法的体现系统，基于 Minecraft 仿真器，具备分解子目标、设计情境感知计划、执行体现动作控制以及与目标驱动的主动感知方案频繁通信的能力，在难度较大的任务中获得 22% 的成功率，在严重依赖背景的任务中获得 91% 的成功率，而且表现出在全新的多样任务上具备显著能力。

Dec, 2023

CoPAL: 机器人动作的修正规划与大型语言模型

在全面自主的机器人系统领域，本研究通过提出系统架构来解决复杂开放世界环境中任务与动作规划的挑战，核心是处理生成计划中的物理、逻辑和语义错误的重规划策略。通过在仿真和两个复杂的现实场景中进行实证评估，我们展示了所提出的反馈架构对可执行性、正确性和时间复杂性的有效性。

Oct, 2023

Pac-Man Pete: 一个可扩展的框架，用于在 VEX 机器人中构建 AI

该技术报告介绍了 VEX 机器人团队 BLRSAI 开发的完全自主机器人，用于 VEX Robotics' Tipping Point AI 竞赛，包括 Unity 模拟和强化学习模型训练管道、可变的计算机视觉管道和数据传输管道以及对外部计算机的大型计算的卸载。我们希望给社区提供所有这些组件，以希望他们将来可以重新使用和改进它们，同时激发新的自主性想法以及教育机器人的 AI 所需的基础设施和程序。

Nov, 2022

Arcade Learning Environment：通用智能体评估平台

该论文介绍了 Arcade Learning Environment（ALE），这是一个既是挑战问题又是平台和方法论，用于评估通用、域无关的人工智能技术的发展。ALE 提供了与数百种 Atari 2600 游戏环境的接口，每个环境都不同、有趣且旨在挑战人类玩家。ALE 为强化学习、模型学习、基于模型的规划、仿真学习、迁移学习和内在动机提供了重大的研究挑战，并提供了一个严格的测试平台，用于评估和比较这些问题的方法。

Jul, 2012

Arena：多智能体智能评估平台和构建工具包

介绍了一个名为 Arena 的多智能体通用评估平台，其中包含 35 个逻辑和表述多样的游戏，以及可视化的社会树和五种基本的多智能体奖励机制，为研究人员提供了一个易于发明和构建新的多智能体问题的建模工具包，还提供了五个最先进的深度多智能体强化学习基线的 Python 实现和一组我们可以使用不同的训练方案训练的每个游戏的 100 个最佳的代理 / 团队，作为评估群体表现的基础，以便研究人员可以在稳定和统一的标准下进行比较。

May, 2019

EvalAI: 为 AI 代理构建更好的评估系统

EvalAI 是一个开源工具，用于评估和比较规模化的机器学习和人工智能算法，通过标注或与人交互的方式对机器学习模型进行评估，从而帮助全球范围内的研究人员、学生和数据科学家创建、协作和参与人工智能挑战，降低机器学习和人工智能的门槛，从而提高领域内可量化的进展速度。

Feb, 2019

CraftAssist: 一种对话驱动的交互式智能体框架

本文介绍了一个在 Minecraft 中实现的机器人助手，并介绍了工具和平台，可以让玩家与机器人互动并记录这些互动。构建这样的助手的目的是为了促进通过对话指定任务的代理商的研究，并最终从对话互动中学习。

Jul, 2019

JARVIS-1: 开放世界多任务智能体及伴有增强记忆的多模态语言模型

JARVIS-1 是一个在开放世界中能够感知多模态输入、生成复杂计划和执行控制的智能体，在 Minecraft 宇宙中完成了超过 200 个任务，包括了从入门到中级难度的任务，并且在长期目标挖掘任务中取得了无与伦比的 12.5% 完成率，比以往记录提高了 5 倍以上。通过多模态记忆，JARVIS-1 能够不断自我提升，实现了更通用的智能和改进的自主性。

Nov, 2023

MineLand: 模拟大规模多智能体交互，具有有限的多模态感知和生理需求

我们提出了一种多智能体 Minecraft 模拟器 MineLand，通过引入有限的多模态感知和物质需求，弥合了传统多智能体模拟器对完美信息和无限能力的假设，支持最多 48 个智能体，强制它们通过通信和协作来满足食物和资源等物质需求，从而促进了动态有效的多智能体交互，还引入了一个灵感来自多任务理论的 AI 智能体框架 Alex，使智能体能够处理复杂的协调和调度，实验证明该模拟器、相应的基准测试和 AI 智能体框架对于实现更生态和细致的集体行为具有积极作用。

Mar, 2024