回放:必须不停地倒转
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了DDPG和HER算法,提供了一种在仿真机器人任务上比以往RL算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和RL算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
提出了一种新的利用单一示范来学习解决Montezuma's Revenge等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
Dec, 2018
本文提出了一种基于轨迹条件的策略学习方法,通过从内存缓冲区中展开多种多样的过去轨迹,可帮助策略创造者更好地探索状态空间,并在各种复杂任务中显著提高模型性能。(本方法可以不用专家演示或将模型重置为任意状态,在 Atari 游戏Montezuma's Revenge和Pitfall的五十亿帧内取得了最先进的得分)
Jul, 2019
Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的“detach”和“derailment”问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。
Jun, 2021
本文引入一种新的强化学习算法,通过学习马尔可夫决策过程中两个状态之间的距离来预测,距离度量作为内在奖励被用于推动智能体的学习。实验结果表明,相比于模型无关的强化学习,该算法在多个测试环境中具有更好的样本效率。
Oct, 2022