精细操作的纯状态模仿学习

Apr, 2020

State-Only Imitation Learning for Dexterous Manipulation

Ilija Radosavovic, Xiaolong Wang, Lerrel Pinto, Jitendra Malik

TL;DR研究了在复杂领域中，采用反向动力学模型辅助的状态模仿学习方法，并将其与传统的专家演示方法相比，证明了该方法在不同动力学、形态、物体的模拟学习中表现出了良好的优越性能。

Abstract

Modern model-free reinforcement learning methods have recently demonstrated impressive results on a number of problems. However, complex domains like dexterous manipulation remain a challenge due to the high samp

reinforcement learning expert demonstrations state-only imitation learning inverse dynamics model complex domains

发现论文，激发创造

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

从单个演示到机器人操作的粗到细模仿学习

本文介绍了一种用于视觉模仿学习的简单方法，可以从一个人类演示中学习机器人操作任务，而无需先前了解与对象的交互情况，并且可以通过自监督学习进行训练。在实现过程中，该方法将模仿学习建模为状态估计问题，以目标交互开始时末端执行器的姿态作为状态，在自监督训练过程中让末端执行器的摄像头围绕对象自动移动。最终，在测试时，机器人通过一条线性路径移动到预测的状态，然后简单地重放演示的末端执行器速度，从而获得了一个复杂的交互轨迹，而无需明确学习策略。在常见的 8 个任务上进行的实现结果表明，这种方法可以从单个人类演示中学习出多样的技能，并产生稳定且可解释的控制器。

May, 2021

学习灵巧的手中操纵

通过强化学习，我们使用模拟环境训练了一种可以使机器人手指进行多指协调、操纵物体并控制重力的新型算法，并且证明该算法可以成功地应用在实物机器人中，为机器人控制领域提供了新的解决方案。

Aug, 2018

Dexterous Imitation Made Easy: 一种基于学习的框架用于高效的器械操作

提出了一种新的基于模仿学习的框架（DIME），借助单个 RGB 相机观察人类运营，并在多指控制策略上进行了培训，以解决机械手复杂操纵任务的挑战。

Mar, 2022

从经验和模仿中学习灵巧的操作策略

本研究探索了学习控制方法对于机械手进行非抓握性操作的影响，通过深度学习和最近邻等方法实现了控制器的泛化。研究表明仅基于时间轨迹的控制器仅需要少量训练数据即可构建，同时多个控制器可以进行插值形成更全局的控制器。

Nov, 2016

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

针对多样化视觉动作技能的强化学习和模仿学习

该研究提出了一种模型无关的深度强化学习方法，利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略，直接从 RGB 相机输入到关节速度。实验结果表明，与仅使用强化学习或模仿学习训练代理的结果相比，作者的强化和模仿代理取得了显著的性能提高。此外，这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。

Feb, 2018

从人类抓握机会学习具有普适性的熟练操作

本研究提出了使用大规模演示学习熟练操作多指手来处理机器人学中最具挑战性的问题。主要采用人类抓握可行性模型生成 3D 物体演示，以实现策略的泛化。同时，本研究使用了新颖的模仿学习目标，以及几何表示学习目标，通过在仿真系统中重新定位多样的对象以证明本方法的有效性。

Apr, 2022

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

深度动态模型用于学习灵巧操作

本文介绍了一种在线规划深度动力学模型的方法，通过这种方法，使用少量真实世界的数据即可进行柔性接触的灵巧操作技能的有效学习，并成功应用于 24 个自由度类人手上。

Sep, 2019