Nov, 2021

离线强化学习:值函数逼近的基本限制

TL;DR本研究针对离线强化学习问题,研究了在实践中越来越受到关注的离线值函数逼近方法,发现其需要有限制的覆盖条件或超出监督学习的表示条件,并提出了所谓的过覆盖现象,阐述了在线和离线强化学习之间的巨大分离性,最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。