Aug, 2023

基于分布式的离线策略评估:面向推荐系统的多项式建议

TL;DR提出了一种估计多个物品推荐策略的完整离线性能分布的估计器,并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据(MovieLens-20M)构建的推荐模拟器上进行实证验证,结果表明相比以前的工作,在各种推荐类型的情况下,估计方差显著减小,并且样本效率提高。