利用图神经网络处理稀疏奖励

Mar, 2022

Dealing with Sparse Rewards Using Graph Neural Networks

Matvey Gerasyov, Ilya Makarov

TL;DR本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Abstract

deep reinforcement learning in partially observable environments is a difficult task in itself, and can be further complicated by a sparse reward signal. Most tasks involving →

deep reinforcement learning partially observable environments reward shaping graph convolutional networks navigation

发现论文，激发创造

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

竞争性经验回放

本研究提出了一种称为 competitive experience replay 的新型方法，在一个探索竞争环境中补充一种稀疏奖励，以两个代理之间的竞争推动探索。在一些基于二进制奖励任务中，对该方法进行了广泛的实验，证明这种方法会导致更快的收敛和改进的任务表现。

Feb, 2019

PlanGAN：基于模型的稀疏奖励和多目标规划

本研究提出了 PlanGAN，一种使用模型的算法，专门针对具有稀疏奖励环境的多目标任务进行求解，该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。

Jun, 2020

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

稀疏图形记忆用于鲁棒规划

该论文介绍了 Sparse Graphical Memory (SGM) 的新数据结构，与深度学习和经典规划相结合，以实现用于长时间范围下稀疏奖励视觉导航任务的可扩展性表现优于当前领先的方法。

Mar, 2020

基于随机神经网络的分层强化学习

本文提出了一种利用预训练环境学习有用技巧并在下游任务中加速学习的框架，该框架结合了内在动机和分层方法的优点，使用 Stochastic Neural Networks 和信息理论正则化器高效预训练一组可解释技巧，并在下游任务中显著提高学习性能。

Apr, 2017

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024