基于好奇心回放的模型自适应方法
本研究提出了一种名为PLR的新方法,在深度强化学习中使用优先级重放机制来选择下一个训练级别,通过适当的训练级别采样,PLR在Procgen基准测试上显著提高样本效率和泛化能力,并超过了以前的最佳结果。
Oct, 2020
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案LaBER,与DQN、分布式RL和actor-critic方法相结合,能够在Atari游戏和PyBullet环境中提供比其他优先级方案更好的性能。
Oct, 2021
本研究研究了三种LRL模型的生成式重演(GR)机制,提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明,该机制在深度RL代理的潜藏向量空间内防止特征到行为映射发生漂移,缩小了训练样本数量,具有较高的实验价值。
Aug, 2022
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本研究从经验重放和模型的角度出发,对Deep Q-Network算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在Mountain Car环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023
通过优化采样权重,将优先经验回放应用于多智能体强化学习(MARL)中,以最小化策略遗憾并获得更好的优先级方案,提高训练效率并在实验中表现出良好的效果。
Feb, 2023
通过利用生成模型技术,我们提出了 Synthetic Experience Replay(SynthER),这是一种基于扩散的方法,能够有效地提高在数据有限的情况下训练强化学习代理的样本效率,并为重放学习算法的深度学习实现开启了使用合成数据的大门。
Mar, 2023
利用回放数据来增强稳定性和数据效率是离轨策略强化学习的主要机制。我们提出了一种简单而有效的框架,可将回放应用于多个实验,通过最小程度的调整强化学习工作流程,显著改善控制器性能和研究迭代时间。
Nov, 2023