学习具有物体为中心的三维表示的可泛化的操作策略

Oct, 2023

学习具有物体为中心的三维表示的可泛化的操作策略

Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu

TL;DRGROOT 是一种基于模仿学习的方法，利用物体中心化和 3D 先验知识来学习鲁棒策略，通过构建鲁棒的物体中心化 3D 表示，并使用基于 Transformer 的策略对这些表示进行推理。此外，我们还引入了分割对应模型，使策略能够在测试时适用于新的物体。通过全面的实验，我们验证了 GROOT 在模拟和真实环境中对感知变化的鲁棒性，GROOT 在应对背景变化、摄像机视角变化和新物体实例等方面具有优越的泛化能力，而最先进的端到端学习方法和基于物体提议的方法都表现不佳。我们还在真实机器人上广泛评估了 GROOT 策略，在非常复杂的环境变化下展示了其有效性。

Abstract

We introduce groot, an imitation learning method for learning robust policies with object-centric and →

groot imitation learning object-centric 3d priors vision-based manipulation

发现论文，激发创造

面向通用机器人学习的深度目标中心表示

本文提出了一种方法来解决复杂开放环境下机器人操作的问题，该方法基于先前训练的通用视觉模型作为感知系统的对象先验，并引入了一个基于对象的注意机制来确定相关对象，通过少数轨迹或演示将这些对象纳入学习策略，使用强化学习可以学习多种操作任务。

Aug, 2017

GROOT: 通过观看游戏视频学习遵循指令

通过引入视频作为指导说明，我们研究了在开放世界环境中构建能够跟随无限指令的控制器的问题，并提出了一种全新的学习框架，该框架能够从游戏视频中学习这种跟随指令的控制器，并生成一个诱导结构化目标空间的视频指令编码器。通过对提出的 Minecraft SkillForge 基准上的开放世界对手和人类玩家的评估，我们将我们的代理 GROOT 与其他对手进行了比较，并且评分清晰地表明 GROOT 正在缩小人机差距，并且在最佳综合代理基准上展现出 70% 的胜率。对诱发的目标空间进行的定性分析进一步展示了一些有趣的新特性，包括目标组合和复杂的游戏行为合成。

Oct, 2023

通过生成对抗自我模仿学习从示范中学习类别级可搬移物体操作策略

本文通过模仿学习的方式解决在复杂情况下通过学习实现物体操作技能的问题，提出了一种可以应用于各项任务的无先验奖励的泛化策略学习方法，并通过几个关键技术，包括生成式对抗自我模仿学习、不断完善的判别器和平衡专家池中的实例，显著提高了分类水平操作策略学习的效率和泛化能力。实验结果在 ManiSkill 基准测试中都有明显改善。

Mar, 2022

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015

Generative Pre-trained Heterogeneous Graph Transformer 学习面向目标的软物体操作技能

SoftGPT 是一种预训练软物体操纵技能学习模型，具有三维异质图表示和基于 GPT 的动力学模型，通过引入先前的知识，可以有效地学习各种软物体操纵技能，包括直接从人类演示中学习。

Jun, 2023

基于强化学习的物体几何形态高效表征与互动抓取策略学习

本文提出一种基于强化学习的框架，通过连续地控制一个类人机械手，学习各种几何不同的实际物体的交互抓取。该框架在物体几何的显式表示方面进行了探索，并且通过符号距离隐式地指导搜索，最终表现出在更具挑战性的条件下学习的能力。

Nov, 2022

图形对象中心的演员 - 评论家算法

最近在无监督的物体中心表示学习问题和其在下游任务中的应用方面取得了重大进展。最新研究支持这样一个论点：在基于图像的物体中心强化学习任务中使用解耦的物体表示有助于策略学习。我们提出了一种新颖的物体中心强化学习算法，结合了演员 - 评论家和基于模型的方法，有效地利用这些表示。我们的方法使用转换编码器提取物体表示，并使用图神经网络来近似环境动力学。所提出的方法填补了开发用于离散或连续动作空间环境的高效物体中心世界模型的研究空白。与基于转换器架构的最先进的无模型演员 - 评论家算法和最先进的整合模型为基础的算法相比，我们的算法在视觉复杂的三维机器人环境和具有组合结构的二维环境中表现更好。

Oct, 2023

使用基于物理环境的状态表示学习对物体集合进行操作

提出了一种基于模拟器状态信息用于面向多物体的机器人学习的方法：通过训练一对编码器网络来捕捉潜变量空间中的多物体状态信息，其中一个编码器是卷积神经网络，另一个是图神经网络状态编码器，这使得我们的系统能够操作现实世界中的 RGB 图像，有效地进行多物体操纵的强化学习训练，取得比传统基于图像或固定长度状态编码的方法更高的成功率，在不调参的情况下也在真实世界中表现良好，并且泛化到在训练时未见过的不同数量和类型的物体。

Sep, 2019

基于部件引导的三维强化学习用于仿真到实物的关节物体操控

通过视觉反馈操纵不可见的关节对象对于实际机器人而言是一项关键但具有挑战性的任务。本文提出了一个新颖的部件导向的 3D RL 框架，可以在没有示范的情况下学习操纵关节对象。实验结果在仿真环境和真实世界环境中证明了我们框架的有效性。

Apr, 2024

通用外科握取的世界模型

智能视觉控制系统、外科机器人、基于世界模型的深度强化学习框架、视觉运动策略以及机器人夹爪是这篇论文的关键词，该论文提出了一种用于外科手术的像素级视觉运动策略学习框架 “Grasp Anything for Surgery”（GAS），并在模拟和实际机器人中进行了广泛的评估。

May, 2024