经验重放的高样本效率演员 - 评论家算法

ICLRNov, 2016

经验重放的高样本效率演员 - 评论家算法

Sample Efficient Actor-Critic with Experience Replay

Ziyu Wang, Victor Bapst, Nicolas Heess, Volodymyr Mnih, Remi Munos...

TL;DR本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法，通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法，稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表现出色。

Abstract

This paper presents an actor-critic deep reinforcement learning agent with experience replay that is stable, sample efficient, and performs remarkably well on challenging environments, including the discrete 57-g

actor-critic deep reinforcement learning experience replay atari domain continuous control trust region policy optimization

发现论文，激发创造

共享经验回放的离策略演员 - 评论家算法

本文提出并调研了一种带有均匀大规模经验回放机制的演员 - 评论家增强学习算法，提供了解决两个挑战的方案：（a）利用经验回放的高效演员评论家学习（b）离线策略学习的稳定性。通过分析重要性权重采样中的偏差 - 方差权衡，提出了混合经验回放采样和在线策略采样的新的信任区间方案，旨在处理 V-trace 不稳定的数据分布，为超参数扫描提供了快速有效的解决方案，并在 Atari 游戏中证明了该设置的数据效率的优势。

Sep, 2019

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

确定性策略梯度算法的安全稳健体验共享

本研究介绍了一种基于经验共享机制和无需动作概率估计的离策略校正技术，以应对在高维持续任务中，经验重现内存非常有限的挑战。该方法能够在具有严格限制的重现缓冲器内安全地共享多个代理人的经验，并在具有挑战性的 OpenAI Gym 连续控制任务中表现出坚韧的性能。

Jul, 2022

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

多智体强化学习中的共享经验演员 - 评论家算法

提出了一种名为 SEAC 的算法，该算法应用经验共享策略来提高多智能体强化学习过程中的探索效率，实验结果表明，该算法在稀疏奖励的多智能体环境中，表现优于其他两种基线算法和两种现有算法，在更加困难的环境下甚至可以解决有些无法学会的任务。

Jun, 2020

反应堆：一种快速和样本高效的行动者 - 评论者强化学习代理

本文提出了一种名为 Reactor 的新型机器人架构，其中包含多个算法和架构创新，能够提高采样效率，并且优于多个先前的模型。

Apr, 2017