ICMLJul, 2023

利用分解的动作空间进行脱机策略评估

TL;DR通过利用分解行动空间的技术,我们提出了一种新的家族式重要性采样估计器,以减少现有 OPE 估计器的偏差和方差问题,同时保持零偏差的特性。