Jan, 2022

基于模型无关表示学习方法的块马尔科夫决策过程高效强化学习

TL;DRBRIEE 是一种在具有块结构动态的马尔可夫决策过程中有效实施强化学习的算法,它将潜在状态的发现、探索和利用相互交织在一起,可以保证以多项式方式扩展样本复杂度来学习近乎最优的策略,而且不依赖于可能无限观察空间的大小。实验证明,相对于现有的 RL HOMER 算法和其他 RL 算法,BRIEE 更具样本效率。