反应堆：一种快速和样本高效的行动者-评论者强化学习代理

Apr, 2017

反应堆：一种快速和样本高效的行动者-评论者强化学习代理

The Reactor: A Sample-Efficient Actor-Critic Architecture

Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos

TL;DR本文提出了一种名为 Reactor 的新型机器人架构，其中包含多个算法和架构创新，能够提高采样效率，并且优于多个先前的模型。

Abstract

In this work we present a new reinforcement learning agent, called reactor (for Retrace-actor), based on an off-policy multi-step return actor-critic architecture. The agent uses a deep recurrent neural network for function approximation. The network outputs a target policy {\pi} (the

发现论文，激发创造

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为“Actor-Mimic”的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在Atari游戏上进行了测试。

Nov, 2015

经验重放的高样本效率演员-评论家算法

本文介绍了一个具有经验重放的Actor-critic深度强化学习算法，通过引入截断重要性采样、随机Dueling网络结构以及一种新的信任区域策略优化方法，稳定、高效地在包括离散的57种Atari游戏环境和多种连续控制问题中表现出色。

Nov, 2016

均值演员-评论家

提出了一种新的算法Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的Actor-Critic方法减少了策略梯度估计中的方差，并在两个控制域和六个Atari游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

基于离线训练和函数近似的收敛演员-评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维“诅咒”问题，这些算法是基于基于平均状态值函数目标的渐变高演员-评论家和强调梯度的高演员-评论家推导而来，能够保持所有经典Actor-Critic方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

共享经验回放的离策略演员-评论家算法

本文提出并调研了一种带有均匀大规模经验回放机制的演员-评论家增强学习算法，提供了解决两个挑战的方案：（a）利用经验回放的高效演员评论家学习（b）离线策略学习的稳定性。通过分析重要性权重采样中的偏差-方差权衡，提出了混合经验回放采样和在线策略采样的新的信任区间方案，旨在处理V-trace不稳定的数据分布，为超参数扫描提供了快速有效的解决方案，并在Atari游戏中证明了该设置的数据效率的优势。

Sep, 2019

基于元批评学习的离线策略演员-评论家方法

本文介绍了一种使用Meta-critic方法的Actor-Critic强化学习算法，可以显著加速学习过程并构建具有高效采样的离线学习框架，通过实验证明了Meta-critic方法与离线学习Off-PAC算法（包括DDPG、TD3和SAC）相结合，在连续控制环境中取得了显著的性能提升。

Mar, 2020

使用演员-学习者蒸馏技术在增强学习中提高Transformer效率

使用 Actor-Learner Distillation 过程，我们可以在具有'演员延迟'限制的场景中，通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量，而不会超出演员的限制。以部分可观察环境为背景，在多个具有挑战性的内存环境中，我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益，同时保持了 LSTM 演员模型的快速推理和减少总训练时间。

Apr, 2021

基于对抗训练的离线强化学习中的演员-评论家算法

本文提出Adversarially Trained Actor Critic (ATAC)算法解决数据不足下的离线强化学习问题，通过相对悲观的方式，在两个玩家之间进行Stackelberg博弈，找到“差策略”并优化策略，该算法在复杂环境和大数据集上的实现得到理论上的保障，并在D4RL基准测试中表现优秀。

Feb, 2022

无需重要性采样的Actor-Critic方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

节俭的演员-评论家: 使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态-奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员-评论家算法比纯粹的离策略演员-评论家算法收敛更快。此外，我们通过与Gym环境中的两种最先进的演员-评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024