多功能安全强化学习的约束条件策略优化
本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。
Oct, 2019
该研究通过引入新的期望最大化方法,并从概率推理的角度解决问题,将安全增强学习问题分解为凸优化和监督学习两个阶段,实现了更稳定和更高效的学习表现,并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。
Jan, 2022
该研究提出了一种名为SEditor的方法,使用安全编辑器策略来解决安全强化学习问题,将不安全的动作转换为安全的动作,同时最大化约束回报和利益回报。在测试中,SEditor在高约束准则下具有突出的效果,并表现出令人满意的实用性能,甚至在障碍密集型环境下,也可以将约束违规率降低到每 2000 步仅一次。
Jan, 2022
该论文研究了如何从离线数据集中学习到一个安全政策,提出了一种多目标优化的方法,并通过“ε-可减” 向量量化了问题难度,发现在安全性和任务性能之间存在平衡,于是提出了一种“受限决策Transformer”方法并进行了实验,结果表明我们的方法比其他方法在各种任务中都表现出更好更安全和更高的效益。
Feb, 2023
确保安全对于强化学习的实际部署非常重要。我们提出了一个新的框架,用于在一般的随机环境中进行安全约束的强化学习。我们的算法在最优化奖励的同时保持持续的安全特性,通过最小化累积折扣违规行为来产生最安全的行为,并基于可达性估计来优化我们提出的框架。我们在多个安全强化学习环境上评估了该方法,并与当前最先进的基准方法进行了比较,结果显示了在提高奖励性能和安全性方面的优势。
Sep, 2023
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
我们提出了一种新的方法,同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数,通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集,将问题作为双层优化任务,通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化,并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性,始终产生高回报的安全强化学习策略。此外,我们的研究结果表明成功学习了 STL 安全约束参数,与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似,表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。
Feb, 2024
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习,即旨在学习一个能够优化奖励并同时满足模型不匹配下的约束的良好策略。我们提出了一种名为鲁棒约束策略优化(RCPO)的算法,这是一种适用于大型/连续状态空间且在训练期间每次迭代都具有最坏情况奖励改进和约束违规的理论保证的算法。我们在一组具有约束条件的强化学习任务上展示了我们算法的有效性。
May, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态-动作轨迹对安全性的贡献,并使用RL-as-inference策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非Markov安全约束。
May, 2024
在涉及安全关键系统的众多强化学习问题中,平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题,我们提出了一个基于原始的框架,通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法,用于优化多个强化学习目标,并克服不同任务之间冲突梯度,因为简单的加权平均梯度方向可能不利于特定任务的性能,原因在于不同任务目标的梯度不对齐。当出现硬约束违规时,我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上,我们提出的方法在实证上也优于先前最先进的方法。
May, 2024