基于 GPU 仿真和高质量演示的交互式人类样学习加速

Dec, 2022

基于 GPU 仿真和高质量演示的交互式人类样学习加速

Accelerating Interactive Human-like Manipulation Learning with GPU-based Simulation and High-quality Demonstrations

Malte Mosbach, Kara Moraw, Sven Behnke

TL;DR利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能，最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。

Abstract

Dexterous manipulation with anthropomorphic robot hands remains a challenging problem in robotics because of the high-dimensional state and action spaces and complex contacts. Nevertheless, skillful closed-loop manipulation is required to enable humanoid robots to operate in unstructured real-world environments. →

robotic manipulation reinforcement learning gpu-based simulation imitation learning teleoperation

发现论文，激发创造

DeXtreme: 从模拟到现实的敏捷手持操作转移

本文通过深度强化学习模型，针对转移到真实场景中遇到的困难，提出了学习可以在人形机器人手上进行灵巧操作的策略和一个稳健的姿态估计器。通过在仿真环境中训练的策略，实现了在不同环境下的适应性，并得出了比最佳视觉策略更好的结果，同时在多种硬件和仿真设置中进行了模拟实现，为后续研究提供了方便、低成本的机器人手和摄像机。

Oct, 2022

学习灵巧的手中操纵

通过强化学习，我们使用模拟环境训练了一种可以使机器人手指进行多指协调、操纵物体并控制重力的新型算法，并且证明该算法可以成功地应用在实物机器人中，为机器人控制领域提供了新的解决方案。

Aug, 2018

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

基于 GPU 加速的分布式强化学习机器人仿真

使用 GPU 加速物理引擎 NVIDIA Flex 模拟机器人学习在连续控制和运动任务上表现出了极大的优势，使用少量的 CPU 与单 GPU 即可短时间内训练出高效的机器人智能。

Oct, 2018

深度强化学习下的灵巧操作：高效、通用和低成本

本文提出使用深度强化学习作为一种可扩展的解决方案，来掌握带有多指手的接触丰富行为，并展示使用模型自由的深度强化学习算法在现实世界中可以学习各种复杂的行为，同时可以通过少量的人类演示来加速学习。

Oct, 2018

REBOOT：重用数据用于高效的实际情境灵巧操纵

我们介绍了一种用于学习灵巧操作技能的高效系统，通过整合最近在样本有效强化学习和重放缓冲引导方面的进展，利用来自不同任务或物体的数据作为训练新任务的起点，显著提高学习效率，同时通过基于模仿的拾取策略和学习奖励函数，消除了手动重置和奖励工程的需求，并在四指机械手上的真实环境中展示了重用先前数据作为重放缓冲初始化的好处，例如在真实世界中快速获得复杂操作技能。

Sep, 2023

从人类示范中学习软体机器手的熟练操作

本文介绍了一种基于物体为中心示范实现的，用于训练软机械手进行熟练操作的方法，该方法使用增强学习技术，提出了一种新的算法，允许我们混合和选择最可行的示范来学习在硬件上模仿。最后，我们将这种方法应用于 RBO Hand 2 上，并获得了开 / 关阀门，滑珠和抓取等任务的良好表现。

Mar, 2016

使用远程遥操作的人在循环中模仿学习

本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题，提出一种 6 自由度机器人操作任务的数据采集系统，并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点，使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。

Dec, 2020

使用强化学习实现人类水平的双手灵巧操作

提出了双手灵巧操纵仿真器 Bi-DexHands，可用于机器人学习多种操纵技巧，其中单一代理策略 PPO 可达到人类 48 个月婴儿的操作水平，而多代理策略可进一步帮助掌握需要灵巧双手协作的操作任务，但现有 RL 算法在多任务和少样本学习设置下仍需要更深入的研究。

Jun, 2022