BriefGPT.xyz
Apr, 2024
高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation
HTML
PDF
Jianliang He, Han Zhong, Zhuoran Yang
TL;DR
我们提出了一种名为LOOP的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有AMDPs中的有效性。
Abstract
We study
infinite-horizon average-reward markov decision processes
(AMDPs) in the context of general
function approximation
. Specifically, we propose a novel algorithmic framework named Local-fitted Optimization
→