AAAIJan, 2023

可证明的无需重制强化学习算法

TL;DR提出了一种重置免费的强化学习算法,将重置免费 RL 转化为两个玩家的博弈,以达到次线性性能失误和次线性重置总数。此外,提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。