2022 年真实机器人挑战赛：在真实环境中从离线数据中学习熟练操纵

Aug, 2023

2022 年真实机器人挑战赛：在真实环境中从离线数据中学习熟练操纵

Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World

Nico Gürtler, Felix Widmaier, Cansu Sancaktar, Sebastian Blaes, Pavel Kolev...

TL;DR通过对比优胜队伍的方法和最新的离线强化学习算法与挑战数据集的基准结果，本研究详细介绍了比赛规则，并讨论了利用模拟器和真实机器人进行实验的话题。

Abstract

Experimentation on real robots is demanding in terms of time and costs. For this reason, a large part of the reinforcement learning (RL) community uses →

reinforcement learning simulators real robots offline reinforcement learning dexterous manipulation

发现论文，激发创造

在真实机器人硬件上进行离线强化学习的基准测试

从先前记录的数据中学习策略是实现真实世界机器人任务的一个有前景的方向，我们提出了一个基准，其中包括：使用能力强大的强化学习代理在模拟中训练的两个任务的熟练操纵平台的大量离线学习数据的收集，在真实世界机器人系统和模拟中执行学习策略的选项以进行高效调试。我们评估了知名的开源离线强化学习算法，并为真实系统上的离线强化学习提供了可重现的实验设置。

Jul, 2023

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

机器人控制中离线人类演示的学习关键因素

本研究提出了六种离线机器人操纵算法来学习人类行为，通过对不同复杂度的数据集进行分析，揭示了从人类示范数据中学习操纵技能的最关键挑战，同时介绍了从人类数据集学习的机会和优点，为未来研究和公平比较提供了公开的数据集和算法实现。

Aug, 2021

REBOOT：重用数据用于高效的实际情境灵巧操纵

我们介绍了一种用于学习灵巧操作技能的高效系统，通过整合最近在样本有效强化学习和重放缓冲引导方面的进展，利用来自不同任务或物体的数据作为训练新任务的起点，显著提高学习效率，同时通过基于模仿的拾取策略和学习奖励函数，消除了手动重置和奖励工程的需求，并在四指机械手上的真实环境中展示了重用先前数据作为重放缓冲初始化的好处，例如在真实世界中快速获得复杂操作技能。

Sep, 2023

真实世界机器人强化学习的要素

本研究提出了一种基于强化学习的机器人学习系统，通过无需人工干预的自主学习，在真实世界环境下实现智能机器人的不断优化和提高。以灵巧操作为案例研究，探究了在无工具化监控和无手工奖励函数的情况下学习的挑战，并提出了简单、可扩展的解决方案，通过多次灵巧操作任务实验验证了该系统的高效性和优越性。

Apr, 2020

用于离线组合强化学习的机器人操作数据集

本研究提供了四个来自 CompoSuite 的离线强化学习数据集，用于解决机器人操作的组合任务，评估表明组合方法比非组合方法优越，但当前方法仍无法提取任务的组合结构以推广到看不见的任务，需要进一步研究。

Jul, 2023

深度强化学习下的灵巧操作：高效、通用和低成本

本文提出使用深度强化学习作为一种可扩展的解决方案，来掌握带有多指手的接触丰富行为，并展示使用模型自由的深度强化学习算法在现实世界中可以学习各种复杂的行为，同时可以通过少量的人类演示来加速学习。

Oct, 2018

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

在真实环境中微调离线世界模型

通过使用离线数据集在真实机器人上对世界模型进行预训练，然后通过使用学习模型进行在线数据集的规划和微调，本文试图解决强化学习在真实机器人上训练时的数据效率问题，以及模型在训练和推理过程中的分布偏移问题，该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证，发现即使离线数据有限，该方法也能实现对已知和未知任务的少次数微调。

Oct, 2023

利用深度强化学习和知识迁移进行灵巧机器人操作，用于复杂稀疏奖励任务

该论文介绍了一种基于深度强化学习的方法，其中使用奖励函数、经验重放和知识迁移等技术使机器人学会在模拟和真实环境中进行高效的三指夹爪操作，实现了对立方体的目标导向运动和姿态控制。

May, 2022