反向经验重放的更紧凑收敛证明

Aug, 2024

A Tighter Convergence Proof of Reverse Experience Replay

Nan Jiang, Jinzhao Li, Yexiang Xue

TL;DR本研究解决了反向经验重放（RER）算法在收敛性理论分析中的局限性，特别是在对学习率和连续步骤长度的限制。通过提供一种更紧凑的分析，我们证明RER在更大的学习率和更长的序列下也能收敛，从而显著提高了该方法的样本复杂性。

Abstract

In Reinforcement Learning, Reverse Experience Replay (RER) is a recently proposed algorithm that attains better Sample Complexity than the

发现论文，激发创造

深入探究经验回放

本文系统地对经验回放进行了实证研究，发现经验回放的缓存大小超过一定阈值会严重影响性能；同时提出了一种 O(1) 方法来缓解大缓存在深度强化学习中的负面影响，并在简单的网格世界和具有挑战性的 Atari 游戏中证明了其效用。

Dec, 2017

经验回放中的记忆和遗忘

提出了一种叫做Remember and Forget Experience Replay (ReF-ER) 的新方法，可以增强基于参数化策略的深度强化学习算法，通过跳过与当前策略不太相似的经验，以及限制回放行为的信任区域内的策略变化，来提高数据效率和应对算法策略的变化。实验结果表明，ReF-ER 能够在全可观测基准测试和部分可观测的流控问题上持续提高连续动作，离线策略强化学习性能。

Jul, 2018

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

损失函数与非均匀采样在经验重放中的等效性

本研究使用优先经验回放（PER）解决深度强化学习中样本分布不均衡问题，通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度，并在MuJoCo和Atari环境中验证了其优越性。

Jul, 2020

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

Reverb：一种经验回放框架

介绍了一种用于强化学习中经验重演的高效、可扩展、易于使用的系统Reverb，该系统的设计旨在适用于具有成千上万个并发客户端的分布式配置，并提供经验重演的核心设计和性能特征的实证结果。

Feb, 2021

经验回放的时间差分学习

本文介绍了一种关于Temporal-difference (TD)学习与经验重放的算法，并提出了对其有限时间和误差控制的方法。

Jun, 2023

增强回放的连续强化学习

RECALL是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在Continual World基准测试中，RECALL的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

使用反向经验回放方法对软性蛇形机器人的无模型强化学习

我们提出了一种新颖的技术Back-stepping Experience Replay (BER)，它与任意的离线策略强化学习算法兼容。BER旨在增强具有近似可逆性的系统的学习效率，减少对复杂奖励塑造的需求。该方法通过后退传递来构建反向轨迹以达到随机或固定的目标，并通过在学习过程中重复经验的提炼来解决后退传递中的不准确性问题。我们将BER应用于无模型的强化学习方法，用于软蛇机器人的运动和导航，软蛇机器人能够通过身体与地面之间的非均质摩擦而实现曲线运动。此外，我们还开发了一个动态模拟器来评估BER算法的有效性和效率，其中机器人成功学习（达到100%的成功率），并能够迅速到达随机目标，速度比最佳基线方法快48%。

Jan, 2024

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024