Mini-BEHAVIOR: 基于过程生成的长时决策机载人工智能评测基准

Oct, 2023

Mini-BEHAVIOR: 基于过程生成的长时决策机载人工智能评测基准

Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI

Emily Jin, Jiaheng Hu, Zhuoyi Huang, Ruohan Zhang, Jiajun Wu...

TL;DR我们提出了 Mini-BEHAVIOR，一个新颖的基准，用于对智能体进行理性和决策方面的挑战，以解决类似于日常人类挑战的复杂活动。Mini-BEHAVIOR 提供了一个快速、开放式的评估机制，用于评估具体决策和规划解决方案在具体化的 AI 中。

Abstract

We present mini-behavior, a novel benchmark for embodied ai that challenges agents to use →

embodied ai mini-behavior benchmark reasoning decision-making

发现论文，激发创造

虚拟、交互和生态环境下日常家庭活动基准测试（BEHAVIOR）

介绍了针对仿真环境中的日常家务活动设立的 BEHAVIOR 基准，该基准涵盖 100 项活动，涉及清洁、维护和食品制备等各种方面，并使用面向对象的逻辑谓词为活动的初始条件和目标条件进行描述，提出了基于度量标准的计算方法以及一套实现该基准所需的环境，以绝对和相对于人类示范者的方式度量任务进展和效率。

Aug, 2021

BEHAVIOR-1K: 一个以人为本、具体实施的人工智能基准，涵盖 1,000 个日常活动和逼真的模拟

我们提供了 BEHAVIOR-1K，这是一个全面的人类中心机器人仿真基准。BEHAVIOR-1K 包括两个组成部分，通过 “你希望机器人为你做什么？” 的广泛调查结果进行指导和激励。第一个是定义了 1,000 种日常活动，与 50 个场景（房屋、花园、餐厅、办公室等）以及超过 9,000 个带有丰富物理和语义属性的对象相联系。第二个是 OMNIGIBSON，一种通过逼真的物理模拟和渲染刚体、可变形体和液体来支持这些活动的新型仿真环境。我们的实验表明，BEHAVIOR-1K 中的活动是长期目标，并且依赖于复杂的操作技能，这对于即使是最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的仿真与现实之间的差距，我们提供了一个初步研究，将在模拟公寓中学习的解决方案转移到实际环境中的移动操作机器人上。我们希望 BEHAVIOR-1K 的以人为中心的特性、多样性和逼真性对于具体化的 AI 和机器人学习研究是有价值的。项目网站：https:// 此 URL。

Mar, 2024

基于模拟器的逻辑任务描述，用于评估具体化人工智能智能体的性能

本研究探讨了如何将基于逻辑型 BEHAVIOR 活动定义转化为不同模拟器中的相对应活动作为第一步，拓展机器人在家庭任务中的应用，为此我们提出了一种适用于不同领域和场地的标准测试方法。

Jun, 2022

多智体行为表示学习的 MABe22 基准

本文介绍了一个包含多个模型物种，覆盖了一系列不同行为分析任务的实验数据，通过引入大规模的多代理轨迹数据集，改进了行为表征。

Jul, 2022

HumanoidBench: 模拟人型机器人全身运动与操作基准测试

为了加快人形机器人算法研究的进展，我们提出了一个基于高维度的模拟机器人学习基准，名为 HumanoidBench，该基准以配备熟练双手和各种具有挑战性的全身操作和运动任务的人形机器人为特色。我们的研究发现，当配备稳健的低级策略（如行走或伸手）时，最先进的强化学习算法在大多数任务中表现不佳，而分层学习基准则实现了优越的性能。通过 HumanoidBench，我们为机器人学界提供了一个平台，用于解决人形机器人在解决各种任务时所面临的挑战，促进算法和思想的快速验证。开源代码可在此网址获得：https://url

Mar, 2024

表现和体验像人类的生成角色

本研究考虑将行为规则、奖励和人类示范化为生成 AI 代理即程序化人物角色，以模拟人类玩家的游戏体验，通过 Go-Explore 强化学习方法来训练人类化的代理，其结果显示生成的代理呈现出人类玩家的不同游戏风格和体验响应，同时对玩家体验的考虑，能够更好地推动行为探索。

Aug, 2022

使用行为克隆玩 Minecraft

本文讲述了我们参加 MineRL 2019 比赛的经历，我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名，同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化，我们进行了更多的实验来研究不同的工程决策对性能的影响。

May, 2020

MiniHack the Planet：一个开放式强化学习研究的沙盒

MiniHack 是一个强大的沙箱框架，用于设计新的深度强化学习（RL）测试环境，其中包含了丰富和复杂的以网格为基础的游戏 NetHack 的所有实体和环境动态，MiniHack 可以使用人类可读的描述语言或简单的 Python 接口来轻松地设计新的 RL 测试环境或整合现有的 RL 基准测试。

Sep, 2021

人类导航行为：统计评估框架

通过非参数双样本假设检验，我们成功地与匿名人类判断人类行为的结果达成一致，并证明其可以作为相似性的统计量。

Mar, 2022

可提示行为：个性化多目标奖励从人类偏好

本文提出了一个名为 Promptable Behaviors 的新型框架，用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略，并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种方法来推断人类偏好，实验证明了该方法在个性化的目标导航和逃避导航任务中能够使代理通过提示行为来满足人类偏好的能力。

Dec, 2023