ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

IJCAIMay, 2024

ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints

PDF

Robert J. Moss, Arec Jamgochian, Johannes Fischer, Anthony Corso, Mykel J. Kochenderfer

TL;DR在不确定环境中安全规划时，智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法，通过学习神经网络近似的最优值和策略，并引入了额外的网络头来估计置信度下的失败概率，以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值，引入了 Δ-MCTS，以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试，结果表明，通过将安全限制与目标分离，可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。

Abstract

To plan safely in uncertain environments, agents must balance utility with safety constraints. safe planning problems can be modeled as a chance-

safe planning chance-constrained partially observable markov decision process constrainedzero policy iteration algorithm monte carlo tree search safety constraints

发现论文，激发创造

BetaZero: 使用学习逼近的置信状态规划长时程 POMDPs

介绍一种基于准确置信模型的 BetaZero 算法，该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策，解决了部分可观测领域的挑战，并在地质勘探等现实任务中表现出色。

May, 2023

风险感知自适应基于信念的概率约束连续 POMDP 规划

本研究针对部分可观察领域的连续 POMDP 问题，提出了一种新的风险厌恶且基于信念的概率限制解决方案，并给出了对应的算法。通过对信念相关的奖励和约束算子的处理，本文提出的方法在满足相同约束条件下，比现有技术更加风险厌恶、更加灵活。实验结果表明，该方法在解决连续 POMDP 问题中具有显著的优势。

Sep, 2022

C-MCTS：蒙特卡洛树搜索进行安全规划

提出了一种基于 Constrained MCTS 框架的采样式规划算法，使用安全性评论家评估代理的代价，能更有效地满足代价约束条件，且在模型不匹配时更少受到代价违规的影响。

May, 2023

零或有界约束违规的约束马尔可夫决策过程策略学习

本文探讨了在强化学习过程中如何确保系统安全，并提出了一种基于 Markov 决策过程的算法，通过乐观悲观原则实现了安全探索和奖励控制，使系统在保证零约束违规的前提下，获得可观的奖励表现。

Jun, 2021

带安全可达目标的 POMDP 有界策略合成

本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。

Jan, 2018

马尔科夫决策过程的安全约束强化学习

该论文研究了针对随机和部分未知环境下控制器综合的相关问题，并提出了一种基于安全的 Markov 决策过程的解决方案，并利用迭代学习过程来实现安全性和最优性的权衡。

Oct, 2015

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

约束层次蒙特卡罗信念状态规划

优化在约束部分可观察马尔可夫决策过程中的规划，使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。

Oct, 2023

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

不确定性下的风险规避规划

本文提出基于有限状态控制器的有界策略迭代方法，通过标准的凸优化算法设计出完全风险规避的 POMDP 最优策略，并针对给定的记忆预算和优化指标对控制器进行修改以减小一致风险。

Sep, 2019