ROER：正则化的最优体验回放

Jul, 2024

ROER: Regularized Optimal Experience Replay

Changling Li, Zhang-Wei Hong, Pulkit Agrawal, Divyansh Garg, Joni Pajarinen

TL;DR在线强化学习中，经验回放是其成功的关键组成部分。本文提出了一种基于时间差异错误的经验重新加权策略，并通过使用KL散度作为正则化器将其优化为一种新形式的最优经验回放策略，得到了出色的实验结果。

Abstract

experience replay serves as a key component in the success of online reinforcement learning (RL). Prioritized experience replay (PER) reweights experiences by the temporal difference (TD) error empirically enhanc

发现论文，激发创造

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的TD学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员-评论家（SAC）和Twin Delayed深度确定性策略梯度（TD3）），在一系列OpenAI gym任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

优先级别回放

本研究提出了一种名为PLR的新方法，在深度强化学习中使用优先级重放机制来选择下一个训练级别，通过适当的训练级别采样，PLR在Procgen基准测试上显著提高样本效率和泛化能力，并超过了以前的最佳结果。

Oct, 2020

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

离线优先经验回放

提出了一种基于优先重现经验的离线强化学习算法，通过一类设计良好的优先级函数来更频繁地访问高回报的转移，从而缓解了分布移位问题并提高了算法性能。

Jun, 2023

经验回放的时间差分学习

本文介绍了一种关于Temporal-difference (TD)学习与经验重放的算法，并提出了对其有限时间和误差控制的方法。

Jun, 2023

优先轨迹回放：一种面向数据驱动型强化学习的回放内存

本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上，具有更全面的信息提取能力，并应用于现有的 offline RL 算法中。

Jun, 2023

CUER：适用于离策略连续深度强化学习算法的修正统一体验重播

本文提出了一种新算法CUER，该算法在考虑所有其他经验的公平性的同时，通过使采样状态分布更接近于策略，以解决经验回放中转换重要性动态调整的问题，从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。

Jun, 2024

优先重放与泛化之间的相互作用研究

经验回放在强化学习中广泛应用，本论文通过研究多种优先级经验回放的变体，尝试理解优先级经验回放的适用性和效果。研究结果表明，在预测任务中，优先级经验回放可以改善表格设置中的值传播，但在与神经网络结合时存在显著区别。虽然一些缓解措施可以避免优先级经验回放和神经网络中出现大的误差峰值，但总体而言，它们通常不如均匀回放策略。在控制任务中，没有证据表明任何优先级变体能够一致地优于均匀回放。

Jul, 2024