AgentStudio: 一个用于构建通用虚拟代理的工具包
该论文提出了一个现有模拟平台的新分类法,并探讨了通用平台的最高级别类,这些平台可以开发具有丰富的可视化、物理、任务和社交复杂性的学习环境。作者认为,现代游戏引擎非常适合作为通用平台,并以 Unity 引擎和开放源代码 Unity ML-Agents Toolkit 为案例研究。接着,作者调查了 Unity 和 Unity ML-Agents Toolkit 所支持的研究,讨论了灵活、交互和易配置的通用平台可以促进哪些研究。
Sep, 2018
介绍了一个名为 Arena 的多智能体通用评估平台,其中包含 35 个逻辑和表述多样的游戏,以及可视化的社会树和五种基本的多智能体奖励机制,为研究人员提供了一个易于发明和构建新的多智能体问题的建模工具包,还提供了五个最先进的深度多智能体强化学习基线的 Python 实现和一组我们可以使用不同的训练方案训练的每个游戏的 100 个最佳的代理 / 团队,作为评估群体表现的基础,以便研究人员可以在稳定和统一的标准下进行比较。
May, 2019
通过 VRKitchen 的虚拟现实环境和集成功能,该研究使用现代人工智能方法驱动具有复杂任务能力的实体代理,使人类教师能够进行演示培训,为任务导向学习等领域的广泛应用提供了标准化的评估基准和数据收集工具。
Mar, 2019
建立一个高度逼真和可重现的环境,专注于在网站上执行任务的智能代理,提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
Jul, 2023
提出了一种交互式代理基础模型,采用新颖的多任务代理训练范式,实现了跨领域、数据集和任务训练 AI 代理的能力,展示了其在机器人技术、游戏 AI 和医疗保健领域的性能,支持多模态和多任务学习。
Feb, 2024
本篇论文提出了一项名为标准化测试套件的评估方法,通过从真实人类交互数据挖掘行为场景,重播情境,让代理人控制从而完成离线交互,利用人类标注记录的代理人传承中的成功率排序,实现快速、可控、可解释、代表自然交互的评估。此方法有望加速智能代理人与人类自然交互的研究进展。
May, 2022
通过使用 OmniACT 数据集和基准测试,该研究介绍了评估代理程序生成可执行计算机任务的能力的一种新方法,并展示了当前最强的基线语言模型代理(GPT-4)在该基准测试中表现最好。然而,与人类能力相比,它仅达到 15%,这突显了传统网络代理在生成可完成任务的可执行脚本方面的挑战。该基准测试为衡量和评估语言模型代理在自动化计算机任务方面的进展提供了平台,并激励未来研究努力构建大型语言模型和计算机屏幕的视觉基础的多模态模型。
Feb, 2024
开发和评估 AI 代理的端到端科学推理能力具有挑战性,本文介绍了 DISCOVERYWORLD,这是第一个用于开发和评估代理执行完整的新颖科学发现循环能力的虚拟环境,通过包含不同挑战任务,覆盖放射性同位素约会、火箭科学和蛋白质组学等多个主题,鼓励培养一般的发现技能而非特定任务的解决方案,提供了自动度量指标来评估性能,发现在 DISCOVERYWORLD 任务中,之前在其他环境中表现良好的强基线代理却遇到了困难,这表明 DISCOVERYWORLD 捕捉到了部分新颖的发现挑战,并可能加速代理的科学发现能力的发展和评估。
Jun, 2024
介绍了建立于 Minecraft 游戏之上的 MineDojo 框架,该框架支持多任务目标环境,同时结合大规模的多模态知识库和灵活可扩展的代理架构,利用大规模的预先训练的视频语言模型作为学习奖励函数的新型代理学习算法,成功解决一系列无需设计的开放式任务。
Jun, 2022
提出一种基于数据增广的强化学习方法,其中使用一个具有 45,622 个人工设计的房屋场景的模型 House3D 进行模拟,结果显示基于数据增广的模型比原始模型的导航成功率提高了 8% 以上。
Jan, 2018