May, 2024

$Δ ext {-}{m OPE}$:使用一对策略进行离策略估计

TL;DR以离线数据为基础,离策略为核心框架,使用逆概率估计和其扩展方法提出 Delta-OPE 方法,并引入优化效率的方差最优加性控制变量,实验结果表明这些方法显著提高了评估和学习的性能。