弹韧性约束强化学习
本文提出了一种弹性约束学习方法,通过权衡性能增益和放宽约束的成本来自适应调整要求,解决了在机器学习任务中面对多个要求的问题,例如公平性、鲁棒性、安全性等;同时,作者在图像分类与异构联邦学习任务上展示了该方法的优势。
Jun, 2023
考虑在马尔可夫决策过程中找到一种确定性策略,该策略统一(在所有状态下)最大化一种奖励,同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性,并使用递归约束描述了我们的问题的动机和适用性。
Jan, 2022
本文提出了一种能处理一大类 RL 任务约束的算法方案,这些约束需要某些向量测量(如行动使用)的期望值位于凸集中,可以捕获以前研究的约束(如安全和接近专家),也可以实现新类别的约束(如多样性)。
Jun, 2019
研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力学等方面表现更好。
Nov, 2020
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了 40%,约 10 倍少的约束违规行为。
Jun, 2020
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
在强化学习问题中引入概念的受限探索与最优保持,在满足某些约束时保持学习的最优性,通过引入监督器控制行为,建立了一个反馈控制结构来建模无约束学习过程的动态,为知道确定性环境的强化学习问题建立了必要条件和充分条件。
Apr, 2023
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型 / 连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
本研究通过基于强对偶性的算法框架,在环境不确定性的一个类别中提出了第一个高效且可证明的解决方法,来解决分布鲁棒受限强化学习(DRC-RL)问题,该问题旨在最大化预期奖励,同时受制于环境分布变化和约束条件。
Jun, 2024