CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

Jun, 2024

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms

Arda Sarp Yenicesu, Furkan B. Mutlu, Suleyman S. Kozat, Ozgur S. Oguz

TL;DR本文提出了一种新算法 CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Abstract

The utilization of the experience replay mechanism enables agents to effectively leverage their experiences on several occasions. In previous studies, the sampling probability of the transitions was modified base

experience replay sampling probability replay prioritization algorithms off-policy updates corrected uniform experience replay (cuer)

发现论文，激发创造

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

经验回放中的记忆和遗忘

提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

重访可回放体验条件

经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法，然而也有一些案例表明 ER 已被应用于策略算法，表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC)，并提出了修改现有算法以满足 ERC 的方法。为此，假设策略改进的不稳定性是 ERC 的关键点，通过度量学习的视角揭示了不稳定性因素，即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此，得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm)，此外，它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。

Feb, 2024

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

共享经验回放的离策略演员 - 评论家算法

本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法，提供了解决两个挑战的方案：（a）利用经验回放的高效演员评论家学习（b）离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡，提出了混合经验回放采样和在线策略采样的新的信任区间方案，旨在处理 V-trace 不稳定的数据分布，为超参数扫描提供了快速有效的解决方案，并在 Atari 游戏中证明了该设置的数据效率的优势。

Sep, 2019