强化学习的广义后见之明
本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取-放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。
Jul, 2017
本文介绍了一种基于目标导向的强化学习新算法框架Hindsight Goal Generation,该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径,以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中,实验证明了该算法的有效性和优越性。
Jun, 2019
本文提出了一种名为PCHID的新方法,它通过利用Hindsight Experience Replay学习Hindsight Inverse Dynamics来有效地解决奖励稀疏的任务,并在多目标任务GridWorld和FetchReach上实现了显著的样本效率和最终性能的提高。
Oct, 2019
本文介绍了逆强化学习(inverse RL),采用逆强化学习方法来实现目标重标记技术(goal-relabeling techniques),并证实在多任务设置下,包括目标达成、具有离散奖励集合和线性奖励函数的领域中,使用逆强化学习加速了学习过程。
Feb, 2020
利用 Hindsight Foresight Relabeling 方法,将多任务强化学习中的 relabeling 概念扩展到元强化学习领域中,从而提高样本效率和渐近性能。
Sep, 2021
提出了广义决策转换器(GDT)以解决HIM问题,该方法能够从轨迹数据中提取多任务策略。 GDT不仅恢复了决策转换器(DT)作为特殊情况,还引入了新的分类DT(CDT)和双向DT(BDT)以匹配未来的不同统计信息,并在MuJoCo连续控制基准测试中得到了很好的应用。
Nov, 2021
本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用,将目标达成问题重新定义为模仿学习框架,并从该框架中推导出多种算法。实验结果表明,与行为克隆相比,Q-learning算法在追溯重标记技术下表现更优,但两者的普通组合会降低性能。此外,该论文还解释了奖励为(-1,0)明显优于(0,1)时的困惑现象。
Sep, 2022
通过把任务分解成不同的部分并利用动态的不平衡性,使用“Hindsight States”方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。
Mar, 2023
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处,并且状态重要性在前向动力学预测中是决策偏好的强有力指标。
Apr, 2024