CUP：批评指导的策略复用

Oct, 2022

CUP: Critic-Guided Policy Reuse

Jin Zhang, Siyuan Li, Chongjie Zhang

TL;DR提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题，通过使用评论家来评估并选择源策略，避免了训练额外的组件，该算法在有效的策略搜索方面表现出良好性能，胜过其它基准算法。

Abstract

The ability to reuse previous policies is an important aspect of human intelligence. To achieve efficient policy reuse, a deep reinforcement learning (DRL) agent needs to decide when to reuse and which source pol

deep reinforcement learning policy reuse critic-guided policy reuse actor-critic methods efficient transfer

发现论文，激发创造

一种保守的更新策略算法，用于安全强化学习

本文提出了一种基于保守策略更新和理论安全保障的 CUP 算法，并将其与新提出的性能上限和替代函数相结合。在此基础上，文章扩展了替代函数的理论分析，提供了更紧的性能上限，同时基于 GAE 设计了实现更高效的 CUP，最终实验证明了该算法的有效性及其源代码。

Feb, 2022

上下文感知策略复用

本文提出了一种名为 CAPS 的上下文感知策略重用方法，它学习何时和哪个源策略最适合重用以及何时终止其重用，从而提高了转移效率并保证了收敛和最优性。实验结果表明，CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重用方法。

Jun, 2018

安全策略优化的约束更新投影方法

提出了一种基于限制更新投影框架的新型策略优化方法 CUP，其安全性得到了保证，并通过对代理人探索危险区域的限制来进一步确保安全；实验结果表明 CUP 具有较强的实际表现和安全性能。

Sep, 2022

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

差分隐私评论家演员模型

本文提出了一种隐私保护的知识转移技术，使用差分隐私策略评估算法来初始化一个演员 - 评论家模型并提高下游任务中的学习效果和样本效率，同时保持敏感或私有信息不泄露，这在资源受限的控制问题中具有实际意义。

Oct, 2019

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

针对离线强化学习的高斯混合评论家的重新访问：一种基于样本的方法

本文介绍了一种新的离线强化学习算法（基于混合高斯的 Actor-Critic 方法），该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制，并在众多挑战性的任务上取得了最先进的性能。

Apr, 2022

连续迁移的聚类马尔可夫决策过程

本文提出了一种算法，通过生成一个小且有效的源子集，以实现在强化学习中的全生命周期，基于策略重用的传递学习，从而代表已经学习完最佳策略的一组 MDP。同时，提出了一个聚类的框架，用于提取源子集，并通过在监控领域的实验证实了算法的有效性。

Nov, 2013

ReLU 拯救：通过正 Advantage 改进你的 On-Policy Actor-Critic 模型

本文介绍了一种用于加强 on-policy 进行深度强化学习（DRL）算法的有效性的新方法，通过在价值函数估计中加入了保守性指标，同时使用 Thompson sampling 来实现谨慎探索，改进了现有算法，从而在多个基准中进行了严格的实证评估，并提供了理论证明，表明了新算法的可行性，特别是在多智能体强化学习中。

Jun, 2023