ICLRMar, 2021

Off-policy Evaluation 的非渐进置信区间:原始和对偶界限

TL;DR本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。