Jun, 2023

自适应数据采集的增强学习离线策略评估

TL;DR本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。