从人的偏好学习通用人类先验知识，用于灵巧操纵

Apr, 2023

从人的偏好学习通用人类先验知识，用于灵巧操纵

Learning a Universal Human Prior for Dexterous Manipulation from Human Preference

Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Hao Dong...

TL;DR使用直接的人类反馈通过视频来学习通用的人类先验，实现 20 种双手机器人操作任务中 RL 策略的高效调整，不需要进行人类演示，任务无关的奖励模型通过生成多样化策略并收集人类偏好进行训练。本方法在各种任务中表现出更接近人类行为的结果，甚至适用于未见过的任务，证明了其泛化能力。

Abstract

Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Even in simulation with no sample constraints, scripting controllers is intractable due to high degrees of freedom, and manual reward engineering can also be har

robotics dexterous manipulation reinforcement learning human feedback generalization capability

发现论文，激发创造

从人类示范中学习软体机器手的熟练操作

本文介绍了一种基于物体为中心示范实现的，用于训练软机械手进行熟练操作的方法，该方法使用增强学习技术，提出了一种新的算法，允许我们混合和选择最可行的示范来学习在硬件上模仿。最后，我们将这种方法应用于 RBO Hand 2 上，并获得了开 / 关阀门，滑珠和抓取等任务的良好表现。

Mar, 2016

人在环路强化学习的小样本偏好学习

使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。

Dec, 2022

基于 GPU 仿真和高质量演示的交互式人类样学习加速

利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能，最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。

Dec, 2022

从人类抓握机会学习具有普适性的熟练操作

本研究提出了使用大规模演示学习熟练操作多指手来处理机器人学中最具挑战性的问题。主要采用人类抓握可行性模型生成 3D 物体演示，以实现策略的泛化。同时，本研究使用了新颖的模仿学习目标，以及几何表示学习目标，通过在仿真系统中重新定位多样的对象以证明本方法的有效性。

Apr, 2022

学习灵巧的手中操纵

通过强化学习，我们使用模拟环境训练了一种可以使机器人手指进行多指协调、操纵物体并控制重力的新型算法，并且证明该算法可以成功地应用在实物机器人中，为机器人控制领域提供了新的解决方案。

Aug, 2018

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

从经验和模仿中学习灵巧的操作策略

本研究探索了学习控制方法对于机械手进行非抓握性操作的影响，通过深度学习和最近邻等方法实现了控制器的泛化。研究表明仅基于时间轨迹的控制器仅需要少量训练数据即可构建，同时多个控制器可以进行插值形成更全局的控制器。

Nov, 2016

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

整合人类演示和偏好的学习奖励函数

该研究提出了 DemPref 框架，结合演示和偏好查询来学习奖励函数，其对标准偏好学习方法具有更高的效率和更好的性能。

Jun, 2019

HERD: 持续人机进化的学习人类示范方法

本论文介绍了如何通过微进化强化学习的方法，将人类操作技能转移到商业机器人上，同时提出了多维进化路径搜索算法以及专家人类代理政策的转移，通过实验验证了该框架的有效性。

Dec, 2022