MoDem: 利用演示加速视觉基于模型的强化学习
本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点,讨论了演示在决策学习中各种应用方法,并提供了一个实用的流程示例用于生成和利用演示。
Mar, 2023
本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法,通过人体运动学控制收集演示并不需要专门设计的奖励函数,可应用于插入操作等实际机器操作中。
Jul, 2017
该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略,直接从 RGB 相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
本文介绍了一种基于梯度的反向强化学习框架,利用预训练的视觉动态模型从视觉人类演示中学习成本函数,并通过视觉模型预测控制来复制演示行为,以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。
Oct, 2020
本文展示了一种简单的表示学习方法:只依赖于通过潜在时间一致性训练的潜在动态模型,既可以在计划类的强化学习中使用,也可以在基于模型的强化学习中作为策略和价值函数特征使用。该方法在高维度任务上优于模型无关方法,并在样本效率上达到了模型类方法的水平。
Jun, 2023
提出了一种名为 TD3fG 算法的新算法,旨在通过学习经验和专家的有机转换,帮助代理从低质量和不充分的演示中提取先前的知识,从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。
Mar, 2023
该研究论文表明,中等大小的神经网络模型实际上可以与模型预测控制(MPC)相结合,以实现在模型为基础的强化学习算法中的良好样本复杂度,并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。
Aug, 2017
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023