Feb, 2022
双重稳健分布稳健离线评估与学习
Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning
TL;DR本研究提出了基于KL散度不确定性集合的局部化双重稳健离线评估(LDR$^2$OPE)和连续双重稳健离线学习(CDR$^2$OPL)算法,用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战,其表现在模拟实验中得到验证,并进一步扩展到了一般的$f$-divergence不确定性集合。