Reverb：一种经验回放框架

Feb, 2021

Reverb: A Framework For Experience Replay

Albin Cassirer, Gabriel Barth-Maron, Eugene Brevdo, Sabela Ramos, Toby Boyd...

TL;DR介绍了一种用于强化学习中经验重演的高效、可扩展、易于使用的系统Reverb，该系统的设计旨在适用于具有成千上万个并发客户端的分布式配置，并提供经验重演的核心设计和性能特征的实证结果。

Abstract

A central component of training in reinforcement learning (RL) is Experience: the data used for training. The mechanisms used to generate and consume this data have an important effect on the performance of RL al

发现论文，激发创造

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案LaBER，与DQN、分布式RL和actor-critic方法相结合，能够在Atari游戏和PyBullet环境中提供比其他优先级方案更好的性能。

Oct, 2021

多智能体强化学习中的记忆和遗忘经验回放

将 Remember and Forget for Experience Replay（ReF-ER）算法扩展到了多智能体强化学习（MARL）领域，并在 Stanford Intelligent Systems Laboratory（SISL）环境中的对比实验中证明，采用单级前馈神经网络模型实现 ReF-ER MARL 算法，其性能表现优于现有复杂神经网络架构的算法。

Mar, 2022

高效经验回放的事件表

介绍了使用基于事件表格的分层采样（SSET）方法，该方法将经验回放缓冲区划分为事件表格，每个表格都捕获了优化行为的重要子序列，在MiniGrid领域、基准RL环境和高保真度赛车模拟器中进行的实证研究表明，相较于现有的ER缓冲区采样方法，采用SSET方法具有更快的学习速度和更好的稳定性。

Nov, 2022

基于地图的经验回放：强化学习中灾难性遗忘的一种内存高效解决方案

该研究采用基于心理认知的重新记忆策略，通过构建一个基于地图的经验重播存储库，减少了记忆体的大小，并增加了样本之间的相关性，从而有效地解决了深度增强学习代理在处理新数据时可能出现的忘记先前解决方案的问题。

May, 2023

离线优先经验回放

提出了一种基于优先重现经验的离线强化学习算法，通过一类设计良好的优先级函数来更频繁地访问高回报的转移，从而缓解了分布移位问题并提高了算法性能。

Jun, 2023

逆向前馈课程学习在强化学习中的极端样本和演示效率优化

采用逆序课程和正序课程相结合的方法，RFCL，在学习从示范中获得显著改进，并且能够解决过去无法解决的需要高精度和控制的任务。

May, 2024

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

ROER：正则化的最优体验回放

在线强化学习中，经验回放是其成功的关键组成部分。本文提出了一种基于时间差异错误的经验重新加权策略，并通过使用KL散度作为正则化器将其优化为一种新形式的最优经验回放策略，得到了出色的实验结果。

Jul, 2024

反向经验重放的更紧凑收敛证明

本研究解决了反向经验重放（RER）算法在收敛性理论分析中的局限性，特别是在对学习率和连续步骤长度的限制。通过提供一种更紧凑的分析，我们证明RER在更大的学习率和更长的序列下也能收敛，从而显著提高了该方法的样本复杂性。

Aug, 2024