无需演示学习可变形物体操纵

Oct, 2019

Learning to Manipulate Deformable Objects without Demonstrations

Yilin Wu, Wilson Yan, Thanard Kurutach, Lerrel Pinto, Pieter Abbeel

TL;DR本文介绍了基于无模型视觉强化学习的变形物体操作问题，通过提出迭代的拾取 - 放置空间和只显式学习放置策略来加速学习，并使用 MVP 选择策略，此学习框架在变形物体操纵任务方面获得了比独立空间快一个数量级的学习，并使用领域随机化将策略转移到 PR2 机器人上，对布料和绳索覆盖任务进行了实验验证。

Abstract

In this paper we tackle the problem of deformable object manipulation through model-free visual reinforcement learning (RL). In order to circumvent the sample inefficiency of RL, we propose two key ideas that accelerate learning. First, we propose an iterative pick-place action space t

deformable objects visual reinforcement learning pick-and-place action conditional relationship domain randomization

发现论文，激发创造

无几何对象模型的取放置

本研究提出了一种深度强化学习算法来解决机器人拾取和放置问题，通过将操作定义为手的目标位置并将状态定义为已达到的历史位置，使算法能够在未知对象几何结构情况下解决大量拾取和重抓问题，并只需依靠传感器感知信息和已知的对象一般类别。实验结果表明，该算法明显优于基于形状基元的基准模型。

Jul, 2017

无需物体模型的自监督学习精准拾取和放置

该研究提出一种应用基于机器学习的灵活取放技术实现对物体的自主操作方法，通过学习与仿真操作降低了对于物体模型的需求。

Jun, 2020

可变形物体操作的仿真增强学习

采用最先进的深度强化学习算法，通过领域随机化，在仿真环境中训练代理程序以解决可变形物体操作问题，并成功将其部署在实际工作中。

Jun, 2018

在动态共享的 3D 空间中学习操控任务

提出了一种深度强化学习策略，旨在通过引入协作自主系统（例如操纵器）在工作场所和人操作员之间高效地学习多类别物品从共享工作空间到多目标目的地的放置任务。

Apr, 2024

利用 Contrastive Estimation 学习变形物体的预测表示

本研究提出了一种新的学习框架，使用对比估计来同时优化可视化表达模型和动态模型，在随机扰动变形对象并收集了模拟数据后，离线学习这些对象的潜在动态模型，随后使用简单的模型规划来解决具有挑战性的变形对象操纵任务，实验结果表明其性能优于传统模型学习技术，并通过域随机化将其可视化操纵策略从模拟数据成功地迁移到现实中的 PR2 机器人中。

Mar, 2020

基于实体为中心的从像素到目标操控的强化学习

这项研究提出了一种适用于表示多个物体及其相互作用的可视强化学习结构化方法，用于学习多个物体的目标条件操纵，并演示了学习使用三个物体但能推广到具有十多个物体的类似任务的代理的能力。

Apr, 2024

基于机械臂的仿真到实际深度强化学习用于拾取和放置

该研究提出了一种自监督视觉深度强化学习方法，使得机器人可以有效地在模拟环境和真实环境之间直接转移训练模型，并特别设计了一种高度敏感的行动策略用于处理拥挤和堆叠的物体，实验证明即使没有经过实际环境微调，该模型在真实吸附任务中的吸附成功率也能保持较高，还能在真实实验中吸附新物体并保持 90% 的成功率。

Sep, 2023

超越选取和放置：应对多样形状的机器人堆叠

本文使用增强学习方法和视觉技术在真实环境中完成对复杂物体进行叠放的任务，重点研究了这种方法的优越性和训练问题。

Oct, 2021

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015