基于状态的安全强化学习:一项调查
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效性证明显示 SCPO 显著优于现有方法。
Jun, 2023
基于约束条件的安全强化学习方法在实现安全优化代理策略方面发挥了重要作用,本研究综述了代表性约束形式以及专为每种形式设计的算法,并揭示了常见问题形式之间的数学相互关系,最后讨论了安全强化学习研究的现状和未来方向。
Feb, 2024
本文提出了可行行动者 - 评论家 (FAC) 算法,是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法,通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数,我们可以获得确保每个可行状态安全的最佳可行策略和最安全的不可行状态策略。
May, 2021
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
提出一种基于长短期约束的安全强化学习算法,用于优化端到端自动驾驶的训练过程,实现连续状态和行动任务中更高的安全性和长距离决策任务中更高的探索性能。
Mar, 2024
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022
研究未知的 CMDP 和两种 RL 算法的关系,在满足安全约束的情况下,探索样本复杂性。结果表明,相对于不受约束的情况,受约束的 RL 算法的样本复杂性增加的因子是约束数量的对数,该方法可以在实际系统中轻松使用。
Aug, 2020
本文提出了一种新的像素观测安全强化学习算法,通过引入潜在障碍函数学习机制,高效地编码未知危险区域的状态安全约束,并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架,从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明,我们提出的方法明显减少了训练过程中的安全违规,并在安全收敛速度上比现有方法更快,同时在奖励回报方面取得了竞争性的结果。
Nov, 2023