Jun, 2020

基于模型的强化学习与价值目标回归

TL;DR本文研究基于模型的强化学习中的后悔最小化问题,提出一种基于乐观主义原则和线性混合模型的算法,并推导出一些后悔界的理论结果。