Jul, 2021

超越价值函数差距:改进的基于实例的遗憾界限用于情节马尔可夫决策过程强化学习

TL;DR为有限的Merkov决策过程中的强化学习提供了更好的基于间隙的遗憾度量方法。