ICMLFeb, 2020

自适应估价器选择用于非同策评估

TL;DR本研究提出一种基于数据驱动方法的估计器选择通用算法,为评估离线策略提供了一个有效的解决方案,在深入的情境模型和强化学习案例中都具有广泛的适用价值。经过实验验证,能够与现有不同相关方法相较而言获得更优的效果。