分布式优先经验回放
本文介绍了第一个大规模分布式深度强化学习的架构,使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件,在 Atari 2600 游戏中应用 Deep Q-Network 算法,获得了 41 个游戏的超越性能,并在大多数游戏中缩短了达成这些结果所需的时间。
Jul, 2015
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本文介绍了 QDQN-DPER 框架,以提高量子强化学习(QRL)在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中,以减少高采样复杂度。数值模拟表明,QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。
Apr, 2023
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。
Oct, 2021
本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。
Nov, 2016
我们提出了一种新颖的多智能体强化学习方法,即选择性多智能体优先经验中继,在此方法中,智能体在训练过程中与其他智能体共享所观察到的有限数量的过渡现象。我们展示了该方法优于基准的非共享分散训练和最先进的多智能体强化学习算法。此外,仅共享少量高度相关的经验优于智能体之间的所有经验的共享,而选择性经验共享的性能提升在许多超参数和 DQN 变体范围内都是稳定的。我们的算法的参考实现可在此 https URL 获得。
Nov, 2023
通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。
Nov, 2023
本文研究通过经验重放的方法,利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点,结果表明分布匹配算法可以成功避免严重忘却问题,并且在所有测试领域中始终表现最佳。同时我们发现,当部分任务的重要性比其他任务更高时,最大化状态空间覆盖率是有福利的。
Feb, 2018