Jun, 2022

基于模型的强化学习:乐观后验采样的结构条件与样本复杂度

TL;DR本文提出了一种通用框架来设计基于模型的RL的后验抽样方法,并表明所提出的算法可以通过在条件概率估计中将遗憾降至Hellinger距离来分析,进一步表明,在通过数据似然度量模型误差时,乐观后验抽样可以控制此Hellinger距离,这种技术允许我们设计和分析具有国内领先样本复杂度保证的多种基于模型的RL设置的统一后验抽样算法。我们在许多特殊情况下说明了我们的一般结果,展示了我们框架的多功能性。