重访可回放体验条件

Feb, 2024

Revisiting Experience Replayable Conditions

Taisuke Kobayashi

TL;DR经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法，然而也有一些案例表明 ER 已被应用于策略算法，表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC)，并提出了修改现有算法以满足 ERC 的方法。为此，假设策略改进的不稳定性是 ERC 的关键点，通过度量学习的视角揭示了不稳定性因素，即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此，得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm)，此外，它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。

Abstract

experience replay (ER) used in (deep) reinforcement learning is considered to be applicable only to off-policy algorithms. However, there have been some cases in which ER has been applied for →

experience replay off-policy algorithms on-policy algorithms instability of policy improvements stabilization tricks

发现论文，激发创造

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

经验回放中的记忆和遗忘

提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法 CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

在线连续学习中减少突变表示变化的新见解

本研究提出了一种基于经验回放的在线连续学习方法，该方法使用不对称更新规则，使得新类别能够更好地适应先前观察到的类别，并在标准连续学习基准测试中获得显著的性能提升。

Mar, 2022

共享经验回放的离策略演员 - 评论家算法

本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法，提供了解决两个挑战的方案：（a）利用经验回放的高效演员评论家学习（b）离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡，提出了混合经验回放采样和在线策略采样的新的信任区间方案，旨在处理 V-trace 不稳定的数据分布，为超参数扫描提供了快速有效的解决方案，并在 Atari 游戏中证明了该设置的数据效率的优势。

Sep, 2019

在线对比散度与生成式回放：不需存储数据的经验重播

本研究提出了在线对比散度与生成回放 (OCD_GR) 方法，利用受限玻尔兹曼机 (RBM) 的生成能力来解决经验重放 (ER) 所带来的存储复杂度问题。在 9 个真实数据集上的实验结果显示，在 64.28% 的测试中，OCD_GR 方法表现优于 ER 方法，在 35.72% 的测试中，OCD_GR 表现相当，具有显著降低存储复杂度的优势。

Oct, 2016

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017