约束策略优化
本研究提出了一种新的算法,投影约束策略优化(PCPO),用于学习控制策略,以优化奖励函数并满足由安全、公平或其他成本考虑所产生的约束,结果表明与现有的方法相比,PCPO 在多个控制任务中的表现优异,约束违反率平均低至 3.5 倍左右,奖励水平约高 15% 左右。
Oct, 2020
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂性和低效性问题。经实验验证,该方法的有效性至少与其他基线方法一样。
May, 2023
提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到 1 / 根号 T 的收敛速率和错误边界。
Nov, 2020
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。
Jun, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。
Oct, 2023
本论文提出针对平均准则的受约束 MDPs 的一种新的(可能是第一种)策略优化算法 —— 平均约束策略优化(ACPO)算法,通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限,提供其性能的理论保证,并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作,展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。
Feb, 2023
本文提出了一种 ESB-CPO 算法,通过在早期阶段增加额外的安全预算来平衡探索和约束,以提高过程的效率,证明其在保证安全性的基础上能够显著提高性能。
Feb, 2023
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分(WAPID)来稳定更新拉格朗日乘子,在实验中表现出更好的风险控制能力。
Jan, 2022