共享经验回放的离策略演员 - 评论家算法

Sep, 2019

共享经验回放的离策略演员 - 评论家算法

Off-Policy Actor-Critic with Shared Experience Replay

Simon Schmitt, Matteo Hessel, Karen Simonyan

TL;DR本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法，提供了解决两个挑战的方案：（a）利用经验回放的高效演员评论家学习（b）离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡，提出了混合经验回放采样和在线策略采样的新的信任区间方案，旨在处理 V-trace 不稳定的数据分布，为超参数扫描提供了快速有效的解决方案，并在 Atari 游戏中证明了该设置的数据效率的优势。

Abstract

We investigate the combination of actor-critic reinforcement learning algorithms with uniform large-scale experience replay and propose so

actor-critic reinforcement learning experience replay off-policy trust region scheme

发现论文，激发创造

经验重放的高样本效率演员 - 评论家算法

本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法，通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法，稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。

Nov, 2016

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

确定性策略梯度算法的安全稳健体验共享

本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术，以应对在高维持续任务中，经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验，并在具有挑战性的 OpenAI Gym 连续控制任务中表现出坚韧的性能。

Jul, 2022

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

多智体强化学习中的共享经验演员 - 评论家算法

提出了一种名为 SEAC 的算法，该算法应用经验共享策略来提高多智能体强化学习过程中的探索效率，实验结果表明，该算法在稀疏奖励的多智能体环境中，表现优于其他两种基线算法和两种现有算法，在更加困难的环境下甚至可以解决有些无法学会的任务。

Jun, 2020

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020