Mar, 2023

Wasserstein 信仰者:通过可靠潜在空间模型学习部分可观测环境的信仰更新

TL;DR本文提出了 Wasserstein-Belief-Updater (WBU),一种强化学习算法,它学习 POMDP 的潜在模型和信仰更新的近似,并具有理论保证,确保输出的信仰可以学习最优值函数。