使用无似然权重的经验回放

Jun, 2020

Experience Replay with Likelihood-free Importance Weights

Samarth Sinha, Jiaming Song, Animesh Garg, Stefano Ermon

TL;DR本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Abstract

The use of past experiences to accelerate temporal difference (TD) learning of value functions, or experience replay, is a key component in deep reinforcement learning. prioritization or reweighting of important

temporal difference learning deep reinforcement learning experience replay prioritization density ratio estimation

发现论文，激发创造

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

深度强化学习的期望强调痕迹学习

本文研究将强化权重与非连续、离线数据相结合以提高样本效率，同时在 Atari 2600 电子游戏上测试了新的 X-ETD（n）算法，证明了其可扩展性和广泛适用性。

Jul, 2021

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

经验回放的时间差分学习

本文介绍了一种关于 Temporal-difference (TD) 学习与经验重放的算法，并提出了对其有限时间和误差控制的方法。

Jun, 2023

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018