MHER: 基于模型的事后经验回放
本研究提出了一种名为 Robust Model-based Hindsight Experience Replay(RoMo-HER)的框架,利用机器人操作环境中的动力学模型增强样本效率,相比于其他模型在多个机器人模拟环境中具有更高的样本效率。
Jun, 2023
本文提出了一种基于 HER 和 MERL 的方法 ——SHER,采用失败经验重用和最大熵概率推断模型,用于在具有稀疏奖励的 DRL 环境中进行有效学习,并在 Open AI 机器人操作任务中进行了评估,实验结果表明,相对于 HER 及其变种,我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果,并且稳定性更高,在不同随机种子上实现了非常相似的表现。
Feb, 2020
本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation,该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径,以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中,实验证明了该算法的有效性和优越性。
Jun, 2019
提出了一种新颖的自导式连续强化学习框架 (RelayHER),通过将顺序任务分解为具有不同复杂度的子任务、设计多目标和多任务网络以及使用自导式探索策略,使得智能体能够有效地解决顺序目标操纵任务。
Aug, 2022
通过自然语言作为目标表示来扩展 HER 框架,ACTRCE 是一种有效的强化学习技术,能够有效地解决困难的强化学习问题,在挑战性的 3D 导航任务中取得好的性能表现。
Feb, 2019
采用前视经验回放(HER)技术,通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率,本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略,包括采样效率和计算时间。
Oct, 2023
提出了一种基于聚类的采样策略,利用成就目标的属性对轨迹进行分组,并在此基础上采样经验,用于解决多目标强化学习中稀疏奖励的问题。实验结果表明,该方法在三个机器人控制任务中具有显著的优化效果,可以缩短模型收敛时间和提升成功率。
Aug, 2022
本文提出了一种名为 Hindsight Experience Replay 的新颖技术,它可以有效地学习来自于稀疏二元奖励的知识,避免了复杂奖励工程,并且可以与任意离线 RL 算法相结合,被视为一种隐式的课程。通过在三种不同的任务上进行实验,推动、滑动和拿取 - 放置,每个任务只使用指示任务是否完成的二元奖励,我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明,Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素,并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上,并成功地完成任务。
Jul, 2017
本论文提出了一种名为 MASER 的新方法,它通过从经验回放缓存生成子目标来解决稀疏奖励的协作多代理强化学习问题。数值结果表明,与其他最先进的 MARL 算法相比,MASER 在 StarCraft II 微管理基准测试中显著优于其他算法。
Jun, 2022