关键词self-imitation learning
搜索结果 - 7
- 视觉回顾自我模仿学习中的交互式导航
通过返朔目标重新标注和自我模仿,本研究在视觉导航任务中提出一种新颖的方法,Visual Hindsight Self-Imitation Learning (VHS),以提高样本利用效率,并通过已有的目标观察衍生出原型目标嵌入方法,在视觉和 - 稀疏奖励的自我模仿强化学习中的排序和多样性增强泛化能力
在自我模仿学习中,我们提出了定制的采样策略,通过优先选择不同类型的转换,并将优先级技术扩展到程序生成的环境中。我们还通过修改来解决因泛化要求和优先级技术引入的偏见对多样性的影响,实验结果显示我们的修改在 MiniGrid-MultiRoom - 基于经验规划与自我模仿学习的机器人运动规划的强化学习
本文提出了一种称为 SILP + 算法的自我模仿学习方法,将基于经验的规划有效地嵌入到学习架构中,从而缓解了机器人运动规划任务中的数据采集问题,并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。
- 自我模仿优势学习
该论文提出了一种新的基于 Bellman 最优算子的自我模仿学习方法,可以在离线强化学习中应用于 hard exploration games,以提高性能。
- 一般下界 Q-learning 的自我模仿学习
通过引入新的 n 步下限并引出一种新型的自我模仿学习算法,将 self-imitation learning 和 lower-bound Q-learning 相结合,旨在优化 off-policy 学习过程中的性能。研究发现 n 步下限 - 自我模仿学习
本论文提出了一种名为自我模仿学习的算法,该算法为离线策略演员 - 评论家算法,旨在验证过去的好经验可以间接驱动深度探索的假说,并在多个 Atari 游戏和 MuJoCo 任务中展现了显著的改进。
- ICLR学习自我模仿多样化策略
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效