Aug, 2023

具有大行动空间的离策评估的双重稳健估计方法

TL;DR我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Marginalized Inverse Propensity Scoring, MIPS) 来减少估计器的方差。为了使估计器更准确,我们提出了 MIPS 的双重稳健估计器 (Marginalized Doubly Robust, MDR)。理论分析表明,所提出的估计器在比 MIPS 更弱的假设下是无偏的,同时保持对 IPS 的方差减少,这是 MIPS 的主要优势。经验实验证实了 MDR 对现有估计器的卓越性。