Oct, 2019

适用于非政策评估的极大极小权重和 Q 函数学习

TL;DR本文探讨了强化学习中的离线评估问题,提出了两种新的重要比率估计器,并给出了样本复杂度分析和渐进优化等结果。