IJCAIMay, 2024

ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

TL;DR在不确定环境中安全规划时,智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法,通过学习神经网络近似的最优值和策略,并引入了额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。通过使用自适应符合推理更新规划中的失败阈值,引入了 Δ-MCTS,以避免过分强调基于失败估计的搜索。该方法在一个安全关键的 POMDP 基准、飞机碰撞避免系统以及安全二氧化碳储存可持续性问题上进行了测试,结果表明,通过将安全限制与目标分离,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。