深度保守策略迭代
本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题,研究了几种近似策略迭代算法,对它们进行了性能分析,显示了非静态策略迭代算法可以在内存和性能之间进行平衡。
May, 2014
本文提出了 Dual Policy Iteration 的概念,利用该框架有效地将模型无关和基于模型的强化学习方法与未知动力学结合起来,用于处理各种连续控制马尔可夫决策过程。
May, 2018
本篇研究考虑了马尔科夫决策过程 (Markov Decision Processes) 的无限时间折扣优化控制问题,并提供了 Policy Search 算法以及 Direct Policy Iteration 和 Conservative Policy Iteration 的性能保证,同时提出了 Non-Stationary Direct Policy Iteration 算法,并证明其时间复杂度类似于 DPI,性能保证好于 DPI,且与 CPI 相当。
Jun, 2013
本文提出了一种新的策略迭代方法 —— 动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于 DPP 的算法表现出更好的性能。
Apr, 2010
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代,并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外,讨论了多种基于此方法的实现,其中一种实现是基于一种新的模拟方案,称为几何采样。
Jul, 2015
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023
本文旨在探讨 Modified Policy Iteration(MPI)算法的近似形式,提出了三种扩展的适应于大规模状态和动作空间的 DP 算法,包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代,并提供了统一的误差传播分析方法。同时,对于基于分类的实现,发展了有限样本分析,以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。
May, 2012
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分(WAPID)来稳定更新拉格朗日乘子,在实验中表现出更好的风险控制能力。
Jan, 2022
本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划,通过最小化对策略损失的悲观界限来解决维度灾难,将 ADP 转化为优化问题,提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限,并在基准问题上展示了良好的性能表现。
May, 2012