优先经验回放
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。
Oct, 2021
本文研究通过经验重放的方法,利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点,结果表明分布匹配算法可以成功避免严重忘却问题,并且在所有测试领域中始终表现最佳。同时我们发现,当部分任务的重要性比其他任务更高时,最大化状态空间覆盖率是有福利的。
Feb, 2018
本文介绍了 QDQN-DPER 框架,以提高量子强化学习(QRL)在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中,以减少高采样复杂度。数值模拟表明,QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。
Apr, 2023
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质:回放容量和学习更新与经验收集的比率(回放比),颠覆了关于经验回放的传统认识。同时,本文也测量了控制回放比的重要性,并对表现优秀的算法进行了一系列的测试。
Jul, 2020
本研究提出了一种使用经验回放的深度强化学习模型,并通过 ODE 模型及实验进行研究发现,在适当的记忆大小下,可以加速学习并提高代理人的表现,但当记忆容量偏大或偏小时,学习反而变慢,同时也证明了优先重放经验不一定有助于提高代理人的学习效果。最后,我们提出了一种自适应调整记忆缓冲区大小的算法,其表现良好。
Oct, 2017