使用行为原始模块在数据效率模仿学习中支持脚手架操纵任务

Mar, 2024

使用行为原始模块在数据效率模仿学习中支持脚手架操纵任务

PRIME: Scaffolding Manipulation Tasks with Behavior Primitives for Data-Efficient Imitation Learning

Tian Gao, Soroush Nasiriany, Huihan Liu, Quantao Yang, Yuke Zhu

TL;DRPRIME 是一种以行为基元为基础的框架，旨在提高模仿学习的数据效率，在多阶段操作任务中取得了显著的性能提升。

Abstract

imitation learning has shown great potential for enabling robots to acquire complex manipulation behaviors. However, these algorithms suffer from high sample complexity in long-horizon tasks, where compounding errors accumulate over the task horizons. We present →

imitation learning prime behavior primitive-based framework data efficiency multi-stage manipulation tasks

发现论文，激发创造

利用行为基元增强强化学习，以实现多样化的操作任务

本文介绍一种基于预定义行为模块的学习框架 Manipulation Primitive-Augmented Reinforcement Learning（MAPLE），通过这种学习框架实现机器人在多种实际操作任务中表现出色，MAPLE 具有超越基线方法的性能。

Oct, 2021

复合视觉运动任务的一次性分层模仿学习

我们研究了从单个人类表演视频中学习多阶段基于视觉的任务，同时利用不同对象的子任务演示数据，学习如何从原始像素中学习基本行为并动态组合这些行为以执行多阶段任务的方法。

Oct, 2018

视觉模仿的简易实现

本研究提出了一种基于商用机械臂的可行的、简化了数据收集过程的、能够有效采集各种复杂场景演示数据的人机互动界面，并采用了多项数据增强技术来优化模型的学习性能，最终在非捏取推动和物品堆叠等任务中获得了较高的成功率。

Aug, 2020

学习机器人技能组合模型，用于任务和动作规划

该研究旨在通过学习使用感知运动基元来解决复杂的长期规划操作问题，其需要将基本技能组合成新的技能来推广应用于广泛的问题中，同时使用高效的主动学习和采样方法，将学习和规划方法结合来规划各种复杂的动态操作任务。

Jun, 2020

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

使用低成本硬件学习精细双手操作

我们提出了一种低成本的系统，该系统可以直接从真实演示中进行端到端模仿学习，以学习在现实世界中执行精细操作任务的方法。

Apr, 2023

Dexterous Imitation Made Easy: 一种基于学习的框架用于高效的器械操作

提出了一种新的基于模仿学习的框架（DIME），借助单个 RGB 相机观察人类运营，并在多指控制策略上进行了培训，以解决机械手复杂操纵任务的挑战。

Mar, 2022

JUICER: 数据高效的机器人装配模仿学习

本文提出了一种在小规模人类示范预算下改善模仿学习性能的流程，并将其应用于需要高精度和长视程操作的装配任务，通过结合表达能力强的策略架构和数据集扩展与基于仿真的数据增强等技术来扩展数据集支持并在高精度要求的瓶颈区域附近监督模型的局部纠正动作，实现了在仿真环境中进行四个家具装配任务并直接从 RGB 图像中组装多达五个零件，性能超过了模仿学习和数据增强的基线。

Apr, 2024

基于深度模仿学习的虚拟现实远程操作复杂操纵任务

本文介绍了如何利用消费级虚拟现实头显和手部追踪硬件来自然地远程操纵机器人执行复杂任务，并说明了如何使用仿真学习来学习从像素到动作的策略映射。实验展示了我们方法在视觉动作技能学习上的有效性。

Oct, 2017

从单个演示到机器人操作的粗到细模仿学习

本文介绍了一种用于视觉模仿学习的简单方法，可以从一个人类演示中学习机器人操作任务，而无需先前了解与对象的交互情况，并且可以通过自监督学习进行训练。在实现过程中，该方法将模仿学习建模为状态估计问题，以目标交互开始时末端执行器的姿态作为状态，在自监督训练过程中让末端执行器的摄像头围绕对象自动移动。最终，在测试时，机器人通过一条线性路径移动到预测的状态，然后简单地重放演示的末端执行器速度，从而获得了一个复杂的交互轨迹，而无需明确学习策略。在常见的 8 个任务上进行的实现结果表明，这种方法可以从单个人类演示中学习出多样的技能，并产生稳定且可解释的控制器。

May, 2021