马尔可夫决策过程中的安全探索
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016
研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题,使用一种约束的 Markov 决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
本文提出一种基于 Lipschitz 连续性的确定性马尔可夫决策过程未知转移模型的安全探索算法,该算法通过优化减少探索安全空间所需的操作数量,并在导航任务的仿真中与基线方法进行了性能比较。
Apr, 2019
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。
Aug, 2020
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本篇论文针对强化学习中的安全探索这一问题,提出 PI-SRL 算法在解决复杂任务,包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。
Feb, 2014
本文提出了一个针对安全探索的方法,通过与安全需求反例指导训练,将连续和离散状态空间系统抽象成紧凑的抽象模型,并利用概率反例生成构造出最小化安全需求违规的模拟子模型,从而使代理人能够有效地训练其策略,以在随后的在线探索过程中尽量减少安全违规风险。
Jul, 2023
使用最优控制提出新的安全保证的探索框架,其中包括对于非线性系统的有限时间样本复杂度边界下的保证的探索,具有任意高概率的可靠性和安全性,在复杂的非线性动态和未知领域的许多实际情景中具备一般性和适用性。
Feb, 2024