Apr, 2024
线性马尔可夫决策过程中的常数遗憾解决
Settling Constant Regrets in Linear Markov Decision Processes
Weitong Zhang, Zhiyuan Fan, Jiafan He, Quanquan Gu
TL;DR我们研究了强化学习中的恒定遗憾保证问题,提出了一种算法 Cert-LSVI-UCB,用于在线性马尔科夫决策过程中近似转移核和奖励函数,利用认证估计器进行集中分析,证明了其对于无限次运行具有恒定的遗憾边界,不依赖先验分布假设。