Jul, 2021

强化学习中泛化的困难之处:认知POMDP和隐式部分可观测性

TL;DR本文研究了强化学习系统在现实世界中部署的中心挑战——泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案——认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。