ICLRApr, 2024

高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题

TL;DR我们提出了一种名为 LOOP 的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。