Sep, 2022

风险感知自适应基于信念的概率约束连续 POMDP 规划

TL;DR本研究针对部分可观察领域的连续 POMDP 问题,提出了一种新的风险厌恶且基于信念的概率限制解决方案,并给出了对应的算法。通过对信念相关的奖励和约束算子的处理,本文提出的方法在满足相同约束条件下,比现有技术更加风险厌恶、更加灵活。实验结果表明,该方法在解决连续 POMDP 问题中具有显著的优势。