Nov, 2019

从增强学习到无悔在线学习的降低

TL;DR提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法,将强化学习问题分解成了遗憾最小化和函数逼近两个部分,并指出了这一缩减方法的重要性