找到政策马尔可夫决策过程的安全区域
本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。
May, 2012
本文提出针对有安全限制的探索问题的新型算法,使用高斯过程先验来表达未知安全限制,具有积极探索安全状态和行为、同时考虑到可达性并能够完全探索可达状态的能力。演示实验使用机器人探索数字地形模型。
Jun, 2016
在不确定环境中安全规划时,智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法,通过学习神经网络近似的最优值和策略,并引入了额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值,引入了 Δ-MCTS,以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试,结果表明,通过将安全限制与目标分离,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。
May, 2024
本文提出一种基于 Lipschitz 连续性的确定性马尔可夫决策过程未知转移模型的安全探索算法,该算法通过优化减少探索安全空间所需的操作数量,并在导航任务的仿真中与基线方法进行了性能比较。
Apr, 2019
本文针对局限于有限状态下的马尔可夫决策过程,对于包括折扣和平均成本标准在内的情况进行了研究,获得了近似最优策略,使用预处理步骤将操作空间有限近似,可以使用众所周知的算法计算近似最优政策。
Mar, 2015
本文研究了带安全可达性目标的部分可观测马尔可夫决策过程(POMDPs),提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略,并通过实验结果表明,该方法能够在大量信念空间中高效地搜索有效策略。
Jan, 2018
本文研究部分可观察马尔可夫决策过程(POMDPs)的解决方案,探讨如何从有限状态自动机的限制集合中找到最佳策略,进而展示了通过分支定界法和梯度上升法寻找全局最优确定性策略和局部最优随机策略的优越实验结果。
Jan, 2013
研究控制一个在运作时间内有高概率保持期望安全集合的 Markov 决策过程的学习问题,使用一种约束的 Markov 决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
本文介绍了一种用于安全 MDP 规划的方法,它基于对状态 - 动作轨迹的安全度量,用监督学习模型学习非马尔可夫安全模式,并通过 Lagrange 乘子方法和计算图优化代理学习安全行为。实验结果表明,该方法可以满足非马尔可夫的安全约束条件,比马尔可夫 NCE 的先前最佳方法更好。
Apr, 2023
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划的运行时间几乎没有影响。
Sep, 2023