ICMLFeb, 2022

双重稳健分布稳健离线评估与学习

TL;DR本研究提出了基于 KL 散度不确定性集合的局部化双重稳健离线评估(LDR$^2$OPE)和连续双重稳健离线学习(CDR$^2$OPL)算法,用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战,其表现在模拟实验中得到验证,并进一步扩展到了一般的 $f$-divergence 不确定性集合。