Feb, 2021

潜在 MDPs 的强化学习:遗憾保证和下界

TL;DR在本文中,我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题,我们提出了一个具有局部保证的有效算法,以解决这个问题。