ICMLAug, 2020
使用核贝尔曼统计量进行负责任离线策略评估
Accountable Off-Policy Evaluation With Kernel Bellman Statistics
Yihao Feng, Tongzheng Ren, Ziyang Tang, Qiang Liu
TL;DR本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。