Apr, 2024

线性马尔可夫决策过程中的常数遗憾解决

TL;DR我们研究了强化学习中的恒定遗憾保证问题,提出了一种算法 Cert-LSVI-UCB,用于在线性马尔科夫决策过程中近似转移核和奖励函数,利用认证估计器进行集中分析,证明了其对于无限次运行具有恒定的遗憾边界,不依赖先验分布假设。