一次性模仿学习与不变量匹配在机器人操作中的应用

May, 2024

一次性模仿学习与不变量匹配在机器人操作中的应用

One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

Xinyu Zhang, Abdeslam Boularias

TL;DR通过学习不变区域和匹配测试环境中的不变区域，Invariance-Matching One-shot Policy Learning（IMOP）算法可以从单个未标注的演示中学习新任务，并取得显著的成功率提高。

Abstract

Learning a single universal policy that can perform a diverse set of manipulation tasks is a promising new direction in robotics. However, existing techniques are limited to learning policies that can only perform tasks that are encountered during training, and require a large number o

universal policy learning manipulation tasks invariance-matching one-shot policy learning state-of-the-art single unannotated demonstration

发现论文，激发创造

通过交互畸变实现单次模仿学习

提出新方法 Interaction Warping 以形态扭曲技术学习单个演示的 SE (3) 机器人操作并演示其在三个目标重新排列任务中的表现，并证明在野外环境中其具有预测对象网格和机器人抓握的能力。

Jun, 2023

从单个演示到机器人操作的粗到细模仿学习

本文介绍了一种用于视觉模仿学习的简单方法，可以从一个人类演示中学习机器人操作任务，而无需先前了解与对象的交互情况，并且可以通过自监督学习进行训练。在实现过程中，该方法将模仿学习建模为状态估计问题，以目标交互开始时末端执行器的姿态作为状态，在自监督训练过程中让末端执行器的摄像头围绕对象自动移动。最终，在测试时，机器人通过一条线性路径移动到预测的状态，然后简单地重放演示的末端执行器速度，从而获得了一个复杂的交互轨迹，而无需明确学习策略。在常见的 8 个任务上进行的实现结果表明，这种方法可以从单个人类演示中学习出多样的技能，并产生稳定且可解释的控制器。

May, 2021

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

一次性模仿学习

本文旨在提出一个元学习框架，称之为一次学习，实现机器人从极少量的演示中学习，并即刻推广到相似的其他任务中。

Mar, 2017

通过生成对抗自我模仿学习从示范中学习类别级可搬移物体操作策略

本文通过模仿学习的方式解决在复杂情况下通过学习实现物体操作技能的问题，提出了一种可以应用于各项任务的无先验奖励的泛化策略学习方法，并通过几个关键技术，包括生成式对抗自我模仿学习、不断完善的判别器和平衡专家池中的实例，显著提高了分类水平操作策略学习的效率和泛化能力。实验结果在 ManiSkill 基准测试中都有明显改善。

Mar, 2022

BC-Z：利用机器人模仿学习实现无需先学习任务的泛化

本文旨在通过模仿学习的角度研究如何通过扩大数据采集并建立交互灵活的学习系统来促进基于视觉的机器人操作系统向新任务的泛化，当扩展真实机器人的数据采集到 100 个不同的任务时，我们发现此系统可以实现 24 个未见过的操作任务，平均成功率为 44%。

Feb, 2022

利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用

本研究旨在定义和纳入物理机器人环境中的自然对称，利用行为克隆和强化学习相结合的方法，通过专家演示在对称环境下训练高效的模型无关强化学习策略，为普通操作任务的学习性能提供了新的可行方法。实验研究结果显示，相较于传统的策略外学习算法，该方法具有更好的学习性能和应用价值。

Apr, 2023

通过领域自适应元学习从观察人类进行单次模仿

本研究提出了一种使用元学习技术从人类视频中进行一次学习的方法，使机器人能够学习从人类示范中执行任务，无需对人类动作进行特定设计，并且在多种任务上演示了机器人实现的能力。

Feb, 2018

观察与匹配：用规则化的最优输运算法增强模仿

本文提出了一种基于正则化最优传输的模仿学习算法，结合了轨迹匹配奖励和行为克隆，大大提高了模仿学习的速度和效率，在 20 个视觉控制任务中的实验表明，比起之前的最先进方法，该算法可以平均快七倍，并且在真实世界的机器人操作中展现了高达 90% 的平均成功率。

Jun, 2022

使用引导式策略搜索学习接触丰富型操作技能

本文介绍了一种用于学习具有高度通用策略表示的动态操作行为的新方法，该方法可以扩展最近开发的策略搜索方法，并使用迭代重新拟合的时间变化线性模型来学习所需运动技能的一组轨迹，然后将这些轨迹统一到一个单一的控制策略中。

Jan, 2015