在仿真环境中评估实际机器人操纵策略
该研究提出CausalWorld,考虑了因果结构和迁移学习的机器人操作环境的基准。提供了具有共同因果结构和潜在因素的组合任务,这些任务可以用于训练和评估,以实现在不同任务分布之间的相似性,并具有迁移到真实世界的可能性。
Oct, 2020
为了评估机器人在现实世界中的操作能力,我们提出了一个新的可重复使用的基准测试,着重于抓取和放置。我们使用机器人学界常用的YCB对象数据集来确保结果可与其他研究进行比较。此外,该基准测试旨在易于在实际环境中进行重现,使其可供研究人员和实践者使用。我们在基准测试中提供了基于模型和无模型6D机器人抓握的实验结果和分析,评估了代表性算法的物体感知、抓握规划和运动规划。我们相信,这个基准测试将是推进机器人操作领域的宝贵工具。通过提供标准化的评估框架,研究人员可以更容易地比较不同的技术和算法,从而更快地发展机器人操作方法。
Jun, 2023
我们研究了机器人操作学习和从仿真到实际的转移中的行动空间选择。我们定义了评估性能的度量标准,并研究了不同行动空间的新兴特性。我们使用13种不同的控制空间,在模拟的抓取和推动任务中训练了超过250个强化学习代理。行动空间的选择涵盖了文献中的热门选择以及常见设计特征的新组合。我们对仿真中的训练性能以及向实际环境的转移进行了评估。我们确认了机器人行动空间的优点和缺点,并对未来设计提出了建议。我们的发现对于机器人操作任务的强化学习算法设计具有重要意义,并强调了在训练和转移强化学习代理时对行动空间的慎重考虑的必要性。
Dec, 2023
为了实现有效的大规模、实际应用的机器人,我们必须评估我们的机器人策略对环境条件变化的适应能力。我们介绍了一个新的模拟基准测试COLOSSEUM,它包括20个不同的操作任务,能够系统地评估模型在12个环境扰动轴上的性能。我们比较了4种最先进的操作模型,揭示了它们在这些环境扰动因素下的成功率下降了30-50%。当多个扰动同时应用时,成功率下降≥75%。我们发现改变干扰对象的数量、目标对象的颜色或照明条件是最大程度降低模型性能的扰动因素。为了验证我们结果的生态效度,我们证明了我们在模拟中的结果与真实实验中的类似扰动相关(R^2 = 0.614)。我们公开了COLOSSEUM的使用代码,并发布了用于复制真实世界扰动的三维打印对象的代码。最终,我们希望THE COLOSSEUM能成为一个评估操作泛化能力的基准,以找到能系统地改进操作泛化能力的建模决策。
Feb, 2024
通过模拟环境构建数字双子,提出了一种通过强化学习来增强真实世界模仿学习策略的系统 RialTo,实现高性能、鲁棒性的策略的学习,同时避免大量不安全的真实数据收集和大量人工监督。
Mar, 2024
通过一小部分策略演练,我们提出了一个为机器人在任意环境中的性能提供严格下界评估的框架,通过应用标准的随机排序来提供性能分布的最差情况边界,并确保边界在用户指定的置信水平和紧凑度上成立。
May, 2024
在语言引导的真实环境中,机器人评估需要耗费时间且通常只能对复杂场景中的潜在指令空间进行小规模采样。本研究提出了对机器人引入对比集的方法,通过对独立同分布(i.i.d.)的测试实例进行小、但具体的扰动。我们研究了评估工作的执行难度与估计测试性能之间的关系,以及在扰动实例上的性能对研究的启示。我们利用对比集来对模拟操纵任务和物理机器人的视觉与语言导航任务中的策略进行特征化,并鼓励使用对比集评估作为对物理机器人小规模i.i.d.演示的更具信息量的替代方案,以及对工业规模的真实环境评估的可扩展替代方案。
Jun, 2024
Manipulate-Anything是一种可扩展的自动化生成方法,在没有特权状态信息、手动设计的技能的情况下,在真实环境中操作任何静态物体,其生成的演示数据可以用于生成鲁棒的行为克隆策略。
Jun, 2024
为了开发可以有效作为多功能和有能力的家庭助手的机器人,它们可靠地感知和与不同环境中的各种物体进行交互,这是至关重要的。为此,我们提出了开放词汇移动操作作为机器人的关键基准任务:在新环境中找到任何物体并将其放在该环境中的任何容器表面上。我们组织了一个NeurIPS 2023竞赛,其中包括模拟和现实世界的组成部分,以评估解决这一任务的方法。我们在最具挑战性版本的此任务上使用真实感知在模拟中的基线仅实现了0.8%的成功率;到竞赛结束时,最好的参赛者实现了10.8%的成功率,提高了13倍。我们观察到最成功的团队采用了各种方法,但在最佳解决方案中出现了两个共同的线索:增强错误检测和恢复,并改进感知与决策过程的集成。在本文中,我们详细介绍了在模拟和现实环境中使用的结果和方法论。我们讨论了所学到的教训及其对未来研究的影响。此外,我们比较了在真实和模拟环境中的性能,并强调了对新环境的稳健泛化的必要性。
Jul, 2024
本研究解决了移动操控领域缺乏有效自主学习框架的问题。通过引入任务相关的自主性、行为先验的知识以及通用奖励机制,我们提出了一种新方法,使得机器人能够在没有大量外部设备或人工监督的情况下自我提升。研究表明,该方法使得Spot机器人在四项复杂的移动操控任务中平均成功率达到80%,相较于现有方法提升了3-4个百分点。
Sep, 2024