Feb, 2021

潜在MDPs的强化学习: 遗憾保证和下界

TL;DR在本文中,我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题,我们提出了一个具有局部保证的有效算法,以解决这个问题。