Oct, 2020

多个记录策略的最优离策略评估

TL;DR本文研究了从多个日志策略进行的基于离线的评估(OPE),每个策略生成一个固定大小的数据集,即分层抽样。我们通过找到具有最小方差的多个记录器的 OPE 估计器来解决此困境,并建立起了分层抽样下的效率界限,并提出了一个能够实现这个界限的估计器,当给定一致的 $q$-estimates 时。同时,我们也提出了一种选择控制变量来最小化方差的假设类的方法,以防止 $q$- 函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。