ICLRApr, 2024
高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation
Jianliang He, Han Zhong, Zhuoran Yang
TL;DR我们提出了一种名为 LOOP 的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。