May, 2021

在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习

TL;DR本研究利用基于模型的方法研究了离线策略评估问题的统一框架,对于一些有充分理论支持的离线任务提供了最优学习方案,研究了统一收敛的统计上限,并在局部统一收敛方面建立了统一高效的分析工具。