受限马尔科夫决策过程中的安全策略改进
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题,该算法将成本累加约束转化为基于状态的约束,并确保代理在训练过程中满足这些约束,同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。
Aug, 2020
提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题,其中基准策略可以来自示范数据或教师代理,并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中,该算法始终优于多个最先进的基线算法,并在平均回报上提高了 40%,约 10 倍少的约束违规行为。
Jun, 2020
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
深度强化学习在许多连续控制任务中表现出卓越性能,但其真实世界应用的一个重要障碍是缺乏安全保证。本文提出了一种无模型安全控制算法 —— 隐式安全集算法,用于合成确保训练过程中可证明安全性的 DRL 代理的安全保障。该算法通过查询黑盒动力函数(例如数字孪生模拟器)仅合成安全指标(屏障凭证)和随后的安全控制策略。此外,我们在连续时间和离散时间系统上理论上证明了隐式安全集算法保证有限时间收敛到安全集和正向不变性。我们在最先进的 Safety Gym 基准测试中验证了所提出的算法,在实现与最先进的安全 DRL 方法相比,它实现了零安全违规,同时达到了 95% ± 9% 的累积奖励,并且该算法对高维系统并行计算具有良好的扩展性。
May, 2024
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022