ICLRMar, 2021
Off-policy Evaluation 的非渐进置信区间:原始和对偶界限
Non-asymptotic Confidence Intervals of Off-policy Evaluation: Primal and Dual Bounds
Yihao Feng, Ziyang Tang, Na Zhang, Qiang Liu
TL;DR本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。