CASA: 冲突回避策略迭代，弥合政策改进和政策评估之间的差距

ICLRMay, 2021

CASA: 冲突回避策略迭代，弥合政策改进和政策评估之间的差距

CASA: Bridging the Gap between Policy Improvement and Policy Evaluation with Conflict Averse Policy Iteration

Changnan Xiao, Haosen Shi, Jiajun Fan, Shihong Deng, Haiyan Yin

TL;DR本文提出了一种模型无关的强化学习方法，通过对策略评估和策略改进之间的不一致性进行规范化，采取熵正则化策略改进，有效缓解两个 GPI 步骤之间的梯度冲突并避免落入次优解，该方法在 Arcade Learning Environment 上的实验证明在主要评估领域中优于几种强的基线。

Abstract

We study the problem of model-free reinforcement learning, which is often solved following the principle of Generalized policy iteration (

model-free reinforcement learning policy iteration functional approximation entropy regularization

发现论文，激发创造

使用几何策略组合的广义策略改进

本文介绍了一种基于几何地平线模型来提高政策表现的方法，该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略，此方法证明了在深度强化学习中取得了不错的效果。同时，文章提供了对 GHM 训练方法的分析和收敛性研究。

Jun, 2022

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

通过基于冲突感知的梯度协调增强来改进视觉强化学习中的泛化性能

在视觉强化学习中，学习具有出色泛化能力以适应未知环境仍然具有挑战性但至关重要。本文提出了一种名为 CG2A 的通用策略梯度优化框架，将增强组合更好地融入视觉强化学习算法来解决泛化偏差问题，通过发展梯度协议求解器和引入软梯度手术策略来改善颇具变化的梯度幅度和梯度冲突。大量实验证明 CG2A 显著提高了视觉强化学习算法的泛化性能和样本效率。

Aug, 2023

网络多智能体强化学习中局部策略迭代的全局收敛性

本研究提出了一种名为局部策略迭代的算法，可以通过提高智能体之间的合作，最大化长期奖励的平均值，解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。

Nov, 2022

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

相对熵正则化策略迭代

我们提出了一种基于离线策略的 Actor-Critic 算法，结合了随机搜索梯度 - free 优化和学习的动作价值函数，通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤，在 31 个连续控制任务中进行对比与实验，并取得了良好的效果。

Dec, 2018

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

多步贪心强化学习算法

本篇论文探讨了基于多步贪婪策略在模型无关强化学习中的优势，并提出了基于 $\kappa$-Policy Iteration 和 $\kappa$-Value Iteration 的模型无关强化学习算法。通过实验表明这些算法对于某些任务的表现优于传统的强化学习算法如 DQN 和 TRPO。

Oct, 2019

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016