分布式优先经验回放

Mar, 2018

Distributed Prioritized Experience Replay

Dan Horgan, John Quan, David Budden, Gabriel Barth-Maron, Matteo Hessel...

TL;DR本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Abstract

We propose a distributed architecture for deep reinforcement learning at scale, that enables agents to learn effectively from orders of magnitude more data than previously possible. The algorithm decouples acting

distributed architecture deep reinforcement learning prioritized experience replay neural network performance

发现论文，激发创造

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

深度强化学习的大规模并行方法

本文介绍了第一个大规模分布式深度强化学习的架构，使用 Parallel Actors、Parallel Learners、分布式神经网络和分布式体验存储等四个主要组件，在 Atari 2600 游戏中应用 Deep Q-Network 算法，获得了 41 个游戏的超越性能，并在大多数游戏中缩短了达成这些结果所需的时间。

Jul, 2015

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

分布式优先经验回放的量子深度 Q 学习

本文介绍了 QDQN-DPER 框架，以提高量子强化学习（QRL）在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中，以减少高采样复杂度。数值模拟表明，QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。

Apr, 2023

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

经验重放的高样本效率演员 - 评论家算法

本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法，通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法，稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。

Nov, 2016

有选择性地分享经验改善多智能体强化学习

我们提出了一种新颖的多智能体强化学习方法，即选择性多智能体优先经验中继，在此方法中，智能体在训练过程中与其他智能体共享所观察到的有限数量的过渡现象。我们展示了该方法优于基准的非共享分散训练和最先进的多智能体强化学习算法。此外，仅共享少量高度相关的经验优于智能体之间的所有经验的共享，而选择性经验共享的性能提升在许多超参数和 DQN 变体范围内都是稳定的。我们的算法的参考实现可在此 https URL 获得。

Nov, 2023

直接关注损失调整的优先经验回放

通过并行自注意力网络，直接量化改变的分布程度以准确补偿误差，并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性，多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。

Nov, 2023

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018