Feb, 2021

针对学习对抗线性混合 MDP 的接近最优策略优化算法

TL;DR本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法 POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。