Jan, 2023

具有后见可观性的 POMDP 学习具有高效样本利用率

TL;DR本文针对传统 POMDP 学习在简单环境下的效率问题,提出了一种新的算法 HOMDP,并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。