从像素学习与专家观察
本文提出了一种基于空间推理和 RL 框架的学习方法,通过想象视觉目标并选择适当的行动来完成任务,使用单一外部奖励信号和内部动机来学习,该方法在两个仿真 3D 环境中,进行了验证,并在处理物体排列任务时,优于两个扁平化架构和一个分层架构。
Jan, 2020
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
本研究探索和对比了现有的强化学习方法,以避免仅提供稀少回报的环境的难度,并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案,提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。
Oct, 2019
本文提出了一种新的像素观测安全强化学习算法,通过引入潜在障碍函数学习机制,高效地编码未知危险区域的状态安全约束,并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架,从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明,我们提出的方法明显减少了训练过程中的安全违规,并在安全收敛速度上比现有方法更快,同时在奖励回报方面取得了竞争性的结果。
Nov, 2023
该研究通过采用专家观察(不涉及具体专家行为信息)来改进深度强化学习模型的样本效率,并通过提出一种自动调整增强损失函数中各组成部分权重的算法,证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。
Feb, 2024
本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取 - 放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。
Jul, 2017
这项研究提出了一种适用于表示多个物体及其相互作用的可视强化学习结构化方法,用于学习多个物体的目标条件操纵,并演示了学习使用三个物体但能推广到具有十多个物体的类似任务的代理的能力。
Apr, 2024
本文提出了一种数据有效、基于模型的强化学习算法,通过使用像素信息直接学习闭环控制策略,实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点,并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。
Oct, 2015