Apr, 2021

上下文臂带中的离线风险评估

TL;DR该论文提出了一种基于 Lipschitz 风险函数的离线策略评估框架,使用 OPRA 估算目标策略的 CDF,提供了对任何 Lipschitz 风险集合的插值估计,具有同时保证整个类的有限样本保证,并使用重要性采样和双重稳健估计实例化 OPRA。