NIPSOct, 2015

固定视界强化学习的样本复杂度

TL;DR本文研究了固定时间段内交互式学习智能体的表现,并从样本复杂度的角度提出了上下 PAC 确定性保证边界,为固定时间段内 MDP 的研究提供了理论上的支持。