DDCO: 从示范中发现深度连续操作的机器人学习

Oct, 2017

DDCO: 从示范中发现深度连续操作的机器人学习

DDCO: Discovery of Deep Continuous Options for Robot Learning from Demonstrations

Sanjay Krishnan, Roy Fox, Ion Stoica, Ken Goldberg

TL;DR本文介绍了 Discovery of Deep Continuous Options （DDCO）算法，这是一种针对机器人模仿学习的扩展型深度发现选项（DDO）算法，通过学习从示例中获得的深度神经网络参数化的低级连续控制技能。我们通过混合范畴 - 连续分布模型来扩展 DDO，以参数化可以调用离散选项以及连续控制动作的高级策略，并使用交叉验证方法减少 DDO 需要使用的选项数量指定，通过实验验证了 DDCO 算法的有效性。

Abstract

An option is a short-term skill consisting of a control policy for a specified region of the state space, and a termination condition recognizing leaving that region. In prior work, we proposed an algorithm called Deep Discovery of Options (DDO) to discover options to accelerate reinforcement learning in Atari games. This paper studies an extension to robot

deep discovery of options discovery of deep continuous options robot imitation learning deep neural networks reinforcement learning

发现论文，激发创造

在 MuJoCo 环境中探索离散和连续控制任务的强化学习技术

利用快速物理模拟器 MuJoCo 在连续控制环境中运行任务，通过离散化方法比较 Q 学习和 SARSA 作为基准，逐步转向最先进的深度策略梯度方法 DDPG。在大量的回合中，Q 学习的得分超过了 SARSA，但在少数回合中，DDPG 表现更好。最后，通过微调模型超参数以期望在更少的时间和资源消耗上获得更好的性能。我们预期 DDPG 的新设计将大幅提高性能，但仅仅几个回合后，我们就能够达到相当不错的平均奖励。我们期望在充足的时间和计算资源下进一步提升性能。

Jul, 2023

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015

利用演示来解决机器人问题中稀疏奖励的深度强化学习

本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法，通过人体运动学控制收集演示并不需要专门设计的奖励函数，可应用于插入操作等实际机器操作中。

Jul, 2017

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

从单个演示中利用连续性进行强化学习

该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略，并提出 DCIL-II 算法以解决连续目标之间的兼容性问题，并在仿真环境中展示了前所未有的样本效率。

Nov, 2022

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

深度 Q-Learning 机器人臂控制的 3D 模拟

该研究旨在使用深度强化学习算法，通过在模拟环境中训练机器人臂完成定位和抓取方块的任务，进而实现在真实场景下机器人控制的无缝转移，并设计了结构化奖励函数以提高训练效率。

Sep, 2016

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

运动中的思考：深度强化学习与并发控制

本文研究了强化学习在控制系统中的并发控制问题，提出了一种基于连续时间贝尔曼方程的离散化方法，结合深度强化学习算法实现了一个新的近似动态规划方法，并在仿真和实际机器人抓取任务中进行了验证。

Apr, 2020