反向经验重放的更紧凑收敛证明
本文系统地对经验回放进行了实证研究,发现经验回放的缓存大小超过一定阈值会严重影响性能;同时提出了一种 O(1) 方法来缓解大缓存在深度强化学习中的负面影响,并在简单的网格世界和具有挑战性的 Atari 游戏中证明了其效用。
Dec, 2017
提出了一种叫做Remember and Forget Experience Replay (ReF-ER) 的新方法,可以增强基于参数化策略的深度强化学习算法,通过跳过与当前策略不太相似的经验,以及限制回放行为的信任区域内的策略变化,来提高数据效率和应对算法策略的变化。实验结果表明,ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作,离线策略强化学习性能。
Jul, 2018
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
本研究使用优先经验回放(PER)解决深度强化学习中样本分布不均衡问题,通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度,并在MuJoCo和Atari环境中验证了其优越性。
Jul, 2020
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
Jul, 2020
介绍了一种用于强化学习中经验重演的高效、可扩展、易于使用的系统Reverb,该系统的设计旨在适用于具有成千上万个并发客户端的分布式配置,并提供经验重演的核心设计和性能特征的实证结果。
Feb, 2021
RECALL是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在Continual World基准测试中,RECALL的性能明显优于纯粹的完美记忆重播,与最先进的持续学习方法相比,整体性能相当甚至更好。
Nov, 2023
我们提出了一种新颖的技术Back-stepping Experience Replay (BER),它与任意的离线策略强化学习算法兼容。BER旨在增强具有近似可逆性的系统的学习效率,减少对复杂奖励塑造的需求。该方法通过后退传递来构建反向轨迹以达到随机或固定的目标,并通过在学习过程中重复经验的提炼来解决后退传递中的不准确性问题。我们将BER应用于无模型的强化学习方法,用于软蛇机器人的运动和导航,软蛇机器人能够通过身体与地面之间的非均质摩擦而实现曲线运动。此外,我们还开发了一个动态模拟器来评估BER算法的有效性和效率,其中机器人成功学习(达到100%的成功率),并能够迅速到达随机目标,速度比最佳基线方法快48%。
Jan, 2024
本文提出了一种新算法CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
Jun, 2024