BriefGPT.xyz
Jul, 2023
在线强化学习的样本复杂度界定
Settling the Sample Complexity of Online Reinforcement Learning
HTML
PDF
Zihan Zhang, Yuxin Chen, Jason D. Lee, Simon S. Du
TL;DR
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
Abstract
A central issue lying at the heart of
online reinforcement learning
(RL) is
data efficiency
. While a number of recent works achieved asymptotically minimal
→