深度保守策略迭代

AAAIJun, 2019

Deep Conservative Policy Iteration

Nino Vieillard, Olivier Pietquin, Matthieu Geist

TL;DR本文研究了将经典的 Conservative Policy Iteration 算法应用于深度强化学习中的实际问题，并引入了自适应混合比率的概念，通过在 Cartpole 问题和 Atari 游戏中的实验验证了该算法的有效性和稳定性，表明重新审视经典的 Approximate Dynamic Programming 可能会导致改进和更稳定的深度强化学习算法。

Abstract

conservative policy iteration (CPI) is a founding algorithm of Approximate Dynamic Programming (ADP). Its core principle is to stabilize greediness through stochastic mixtures of consecutive policies. It comes with strong theoretical guarantees, and inspired approaches in →

conservative policy iteration approximate dynamic programming deep reinforcement learning neural networks adaptive mixture rates

发现论文，激发创造

近似策略迭代方案对比

本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题，研究了几种近似策略迭代算法，对它们进行了性能分析，显示了非静态策略迭代算法可以在内存和性能之间进行平衡。

May, 2014

双策略迭代

本文提出了 Dual Policy Iteration 的概念，利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来，用于处理各种连续控制马尔可夫决策过程。

May, 2018

关于某些策略搜索动态规划算法的性能界限

本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题，并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative Policy Iteration 的性能保证，同时提出了 Non-Stationary Direct Policy Iteration 算法，并证明其时间复杂度类似于 DPI，性能保证好于 DPI，且与 CPI 相当。

Jun, 2013

动态策略编程

本文提出了一种新的策略迭代方法 —— 动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于 DPP 的算法表现出更好的性能。

Apr, 2010

Lambda-Policy Iteration: 评述与新实现

本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代，并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外，讨论了多种基于此方法的实现，其中一种实现是基于一种新的模拟方案，称为几何采样。

Jul, 2015

现场策略迭代

本文提出了一种名为 ICPI 的算法，它使用基础模型在上下文中执行强化学习任务，通过试错交互更新提示内容，以实现无需专家示范或梯度的强化学习任务。

Oct, 2022

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

近似改进策略迭代

本文旨在探讨 Modified Policy Iteration（MPI）算法的近似形式，提出了三种扩展的适应于大规模状态和动作空间的 DP 算法，包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代，并提供了统一的误差传播分析方法。同时，对于基于分类的实现，发展了有限样本分析，以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。

May, 2012

带安全约束的保守分布式强化学习

本文提出了一种名为约束保守分布最大后验策略优化（CDMPO）的离线强化学习算法用于安全探索中的约束决策问题，其中利用分布式强化学习方法准确估计 Q 函数和 C 函数，并利用保守的价值函数损失来减少违反约束的次数，同时使用加权平均比例积分微分（WAPID）来稳定更新拉格朗日乘子，在实验中表现出更好的风险控制能力。

Jan, 2022

通过最小化分布健壮边界来近似动态规划

本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划，通过最小化对策略损失的悲观界限来解决维度灾难，将 ADP 转化为优化问题，提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限，并在基准问题上展示了良好的性能表现。

May, 2012