大批次经验回放

ICMLOct, 2021

Large Batch Experience Replay

Thibault Lahire, Matthieu Geist, Emmanuel Rachelson

TL;DR本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Abstract

Several algorithms have been proposed to sample non-uniformly the replay buffer of deep reinforcement learning (RL) agents to speed-up learning, but very few theoretical foundations of these sampling schemes have been provided. Among others, Prioritized →

reinforcement learning experience replay importance sampling gradient estimation atari games

发现论文，激发创造

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

注意损失调整的优先经验回放

提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法，结合改进的 Self-Attention 网络和 Double-Sampling 机制，用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究，验证了该算法的有效性和广泛适用性。

Sep, 2023

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

深入探究经验回放

本文系统地对经验回放进行了实证研究，发现经验回放的缓存大小超过一定阈值会严重影响性能；同时提出了一种 O (1) 方法来缓解大缓存在深度强化学习中的负面影响，并在简单的网格世界和具有挑战性的 Atari 游戏中证明了其效用。

Dec, 2017

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

损失函数与非均匀采样在经验重放中的等效性

本研究使用优先经验回放（PER）解决深度强化学习中样本分布不均衡问题，通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度，并在 MuJoCo 和 Atari 环境中验证了其优越性。

Jul, 2020

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023