利用图神经网络处理稀疏奖励
本研究探索和对比了现有的强化学习方法,以避免仅提供稀少回报的环境的难度,并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案,提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。
Oct, 2019
本研究提出了一种称为 competitive experience replay 的新型方法,在一个探索竞争环境中补充一种稀疏奖励,以两个代理之间的竞争推动探索。在一些基于二进制奖励任务中,对该方法进行了广泛的实验,证明这种方法会导致更快的收敛和改进的任务表现。
Feb, 2019
本研究提出了 PlanGAN,一种使用模型的算法,专门针对具有稀疏奖励环境的多目标任务进行求解,该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。
Jun, 2020
本文提出了一种新的基于探索者轨迹的探索策略,使用局部自避步态生成方法,结合合适的状态平均距离,来为稀疏奖励的连续状态和行动空间提供短时记忆,实现高效的环境探索。
Dec, 2020
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023
本研究利用示范来解决强化学习中稀疏奖励的探索问题,成功地学习了长期、多步骤的机器人任务,方法使用了 DDPG 和 HER 算法,提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速,方法易于实现,能够解决在行为克隆和 RL 算法中 都无法解决的任务,并且往往表现优于示范策略。
Sep, 2017
该论文介绍了 Sparse Graphical Memory (SGM) 的新数据结构,与深度学习和经典规划相结合,以实现用于长时间范围下稀疏奖励视觉导航任务的可扩展性表现优于当前领先的方法。
Mar, 2020
本文提出了一种利用预训练环境学习有用技巧并在下游任务中加速学习的框架,该框架结合了内在动机和分层方法的优点,使用 Stochastic Neural Networks 和信息理论正则化器高效预训练一组可解释技巧,并在下游任务中显著提高学习性能。
Apr, 2017
通过使用多样的过去轨迹作为指导,而不是模仿它们,本文提出了一种方法,使得在线强化学习更快、更高效,即使这些轨迹是次优的或未获得高奖励;此外,引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法,与现有的强化学习方法相比,实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。
Feb, 2024