ICMLFeb, 2022

利用嵌入技术进行大型行动空间的离策估计

TL;DR提出一种基于边际化重要性权重的新 Off-Policy Evaluation(OPE)估算器,旨在解决现有 OPE 估算器在动作数量很大时出现的极端偏差和方差问题,能够为许多应用程序,从推荐系统到语言模型中提供可靠的 OPE,并分析了行动嵌入在传统估计量之上提供统计收益的条件。