强化学习在具有轨迹优化的安全嵌入式马尔可夫决策过程中的应用
该研究提出了一种名为 SNO-MDP 的算法,它可以在未知安全约束条件下探索和优化马尔可夫决策过程,通过扩展安全区域来学习安全约束条件,进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。
Aug, 2020
该论文研究了针对随机和部分未知环境下控制器综合的相关问题,并提出了一种基于安全的 Markov 决策过程的解决方案,并利用迭代学习过程来实现安全性和最优性的权衡。
Oct, 2015
研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题,使用一种约束的 Markov 决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
基于多目标策略优化框架的新型无模型安全强化学习算法引入,通过环境奖励函数和安全评论家对策略进行优化,以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件,并引入了一个攻击参数,允许对所述权衡进行微调。实证结果表明,与六种不同最新颖的 Safe RL 方法相比,提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数,并获得更高或竞争性的策略回报,在安全关键应用方面表现出明显的优越性。
Feb, 2024
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023
提出了一个新的算法 SAILR,该算法使用基于优势函数的干预机制在训练期间保持代理的安全,并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。
Jun, 2021
在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
May, 2024
利用梯度操作理论解决强化学习中奖励和安全之间的冲突,通过提出一种软切换策略优化方法实现奖励和安全的平衡,进而提供一个安全强化学习框架。
May, 2024