Apr, 2024

估计记录策略的双重稳健离线策略评估

TL;DR该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。