IJCAIApr, 2018

带折扣求和目标的 POMDP 中带有概率保证的期望优化

TL;DR本文研究了部分可观测马尔可夫决策过程在期望优化时如何确保回报具备一定概率性保证的问题,并提出了解决这种问题的算法。