通过有限的演示学习复杂的操作技能的确定性策略

Mar, 2023

通过有限的演示学习复杂的操作技能的确定性策略

Learning Complicated Manipulation Skills via Deterministic Policy with Limited Demonstrations

Liu Haofeng, Chen Yiwen, Tan Jiayi, Marcelo H Ang

TL;DR提出了一种名为 TD3fG 算法的新算法，旨在通过学习经验和专家的有机转换，帮助代理从低质量和不充分的演示中提取先前的知识，从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。

Abstract

Combined with demonstrations, deep reinforcement learning can efficiently develop policies for manipulators. However, it takes time to collect sufficient high-quality demonstrations in practice. And human demonst

deep reinforcement learning manipulators demonstration quality learning from experience td3fg algorithm

发现论文，激发创造

异步离线更新下的机器人操作深度强化学习

本文介绍一种基于深度 Q 函数算法的深度强化学习方法，能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习，并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。

Oct, 2016

利用演示来解决机器人问题中稀疏奖励的深度强化学习

本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法，通过人体运动学控制收集演示并不需要专门设计的奖励函数，可应用于插入操作等实际机器操作中。

Jul, 2017

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

用于处理各种机器人手臂任务的离策略深度强化学习算法

本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法，在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练，并分析了这三种算法在控制环境中的效率和速度。

Dec, 2022

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

基于 GPU 仿真和高质量演示的交互式人类样学习加速

利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能，最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。

Dec, 2022

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

通过生成对抗自我模仿学习从示范中学习类别级可搬移物体操作策略

本文通过模仿学习的方式解决在复杂情况下通过学习实现物体操作技能的问题，提出了一种可以应用于各项任务的无先验奖励的泛化策略学习方法，并通过几个关键技术，包括生成式对抗自我模仿学习、不断完善的判别器和平衡专家池中的实例，显著提高了分类水平操作策略学习的效率和泛化能力。实验结果在 ManiSkill 基准测试中都有明显改善。

Mar, 2022