高效经验回放的事件表

Nov, 2022

Event Tables for Efficient Experience Replay

Varun Kompella, Thomas Walsh, Samuel Barrett, Peter Wurman, Peter Stone

TL;DR介绍了使用基于事件表格的分层采样（SSET）方法，该方法将经验回放缓冲区划分为事件表格，每个表格都捕获了优化行为的重要子序列，在 MiniGrid 领域、基准 RL 环境和高保真度赛车模拟器中进行的实证研究表明，相较于现有的 ER 缓冲区采样方法，采用 SSET 方法具有更快的学习速度和更好的稳定性。

Abstract

experience replay (ER) is a crucial component of many deep reinforcement learning (RL) systems. However, uniform sampling from an ER buffer can lead to slow convergence and unstable asymptotic behaviors. This paper introduces →

experience replay deep reinforcement learning stratified sampling prioritized sampling strategy minigrid domains

发现论文，激发创造

MEET: 一种用于缓冲区采样的 Monte Carlo 探索 - 利用权衡算法

本文提出了一种新的采样策略，基于 Q 值函数的不确定性估计，指导采样探索更重要的转移，从而学习到更有效的策略，实验表明，在各种环境下，该方法在收敛和峰值性能方面的表现平均超过现有策略 26%。

Oct, 2022

经验回放中的记忆和遗忘

提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

强化经验重放的连续学习

本研究提出了一种基于强化经验回放的连续学习方法，通过使用当前训练数据模仿未来经验，以及蒸馏内存缓冲区的过去经验，来提高模型的预测一致性，从而有效保留已获得的知识。实验结果表明，我们的方法在多个图像分类数据集上优于现有方法。

May, 2023

在线连续学习中减少突变表示变化的新见解

本研究提出了一种基于经验回放的在线连续学习方法，该方法使用不对称更新规则，使得新类别能够更好地适应先前观察到的类别，并在标准连续学习基准测试中获得显著的性能提升。

Mar, 2022

SEERL: 高效率样本集成强化学习

本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本，且在 Atari 2600 和 Mujoco 中表现优异。

Jan, 2020

USHER: 无偏采样的回顾经验回放

提出了一种基于重要性采样的算法来处理稀疏奖励带来的偏差问题，并在高维度随机环境中显示了其有效性。

Jul, 2022

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

重访可回放体验条件

经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法，然而也有一些案例表明 ER 已被应用于策略算法，表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC)，并提出了修改现有算法以满足 ERC 的方法。为此，假设策略改进的不稳定性是 ERC 的关键点，通过度量学习的视角揭示了不稳定性因素，即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此，得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm)，此外，它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。

Feb, 2024

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

TEAL：经验回放中小缓冲区的新选择策略与增量学习

在这篇论文中，我们介绍了一种名为 TEAL 的新方法，通过将样本存储于内存中，可以显著增强各种经验重播方法在小内存缓冲区上的性能，从而提高了最先进方法 XDER 以及 ER 和 ER-ACE 在多个图像识别基准上的平均准确性，与最终任务中每个类别 1-3 个样本的小内存缓冲区相关。这证实了当内存有限时，优先考虑最典型的数据是最好的策略。

Jun, 2024