Feb, 2021

无先验知识的非平稳强化学习:一种最优黑盒方法

TL;DR本文提出一种黑盒化的方法,将某些强化学习算法在(近)平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾,并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中,我们给出一系列的例子,表明该方法不仅可以重构最近通过特殊算法实现的(上下文)多臂赌博机问题,而且还可以显著改进广义线性赌博机问题、周期性马尔科夫决策问题和无限时间马尔科夫决策问题的状态,特别是在大多数情况下,我们的算法可以达到最优动态遗憾。