体验回放优化

Jun, 2019

Experience Replay Optimization

Daochen Zha, Kwei-Herng Lai, Kaixiong Zhou, Xia Hu

TL;DR提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Abstract

experience replay enables reinforcement learning agents to memorize and reuse past experiences, just as humans replay memories for the situation at hand. Contemporary off-policy algorithms either replay past expe

experience replay off-policy algorithms cumulative reward optimization replay policy

发现论文，激发创造

经验回放中的记忆和遗忘

提出了一种叫做 Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

重访可回放体验条件

经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法，然而也有一些案例表明 ER 已被应用于策略算法，表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC)，并提出了修改现有算法以满足 ERC 的方法。为此，假设策略改进的不稳定性是 ERC 的关键点，通过度量学习的视角揭示了不稳定性因素，即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此，得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm)，此外，它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。

Feb, 2024

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法 CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

连续离线强化学习的离线经验回放

本文提出基于模型的经验选择方案以解决离线强化学习中的经验回放问题和遗忘问题，并进行了实验验证。

May, 2023

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

确定性策略梯度算法的安全稳健体验共享

本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术，以应对在高维持续任务中，经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验，并在具有挑战性的 OpenAI Gym 连续控制任务中表现出坚韧的性能。

Jul, 2022

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018