长期安全强化学习与二进制反馈
提出了一种名为 SABRE 的元算法,可以用于任何 MDP 环境中,并接收提供二进制状态 / 动作对 safety feedback 的离线 oracle, 通过主动学习在训练过程中控制查询 oracle 的数量,并且在合适的技术假设下能保证不会采取不安全操作,最终获得高概率的近似最优安全策略。
Oct, 2022
这项研究将强化学习与轨迹优化相结合,以管理最大化奖励与遵守安全约束之间的权衡,并在安全性出发推理阶段取得显著高奖励和几乎零安全违规的性能,通过在真实机器人任务中将盒子推动穿越障碍物来展示了该方法的实际应用性。
Oct, 2023
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
提出一种基于长短期约束的安全强化学习算法,用于优化端到端自动驾驶的训练过程,实现连续状态和行动任务中更高的安全性和长距离决策任务中更高的探索性能。
Mar, 2024
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
本文提出了一种控制器架构,该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合,以确保学习过程中的安全,并利用高斯过程对系统动态进行建模和不确定性分析。
Mar, 2019
本文提出在强化学习过程中学习安全性机制的方法,并针对线性函数状态下的马尔科夫决策过程提出了 SLUCB-QVI 和 RSLUCB-QVI 算法,能够在没有安全问题的情况下实现几乎与现有不安全算法相匹配的一定遗憾水平
Jun, 2021
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC 在所有情景下(无对手、安全对手、性能对手)实现了高性能和持续的安全性,并且明显优于所有基准线。
Sep, 2023
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
Oct, 2023