NIPSDec, 2016

反事实学习方法的大规模验证:一个测试平台

TL;DR本研究提供并使用实际数据和标准测试平台,基于广告展示探索了历来研究最新的无政策评估和学习方法(如双重优化、POEM 和基于回归基线的监督学习),结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。