May, 2024

针对离线策略上下文主动学习任务的最佳基线修正

TL;DR将离线学习范式应用于推荐系统和排名应用,提出一个统一的框架,采用等效的均衡基准修正方法来减少估计方差,从而得到方差最优的无偏估计器。