BriefGPT.xyz
Feb, 2020
离线评估和策略优化的极小极大值区间
Minimax Confidence Interval for Off-Policy Evaluation and Policy Optimization
HTML
PDF
Nan Jiang, Jiawei Huang
TL;DR
该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用,结合两种不同风格的方法,提出了一个特殊类型的双重稳健方法,解决了偏见问题,同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。
Abstract
We study
minimax methods
for
off-policy evaluation
(OPE) using value-functions and marginalized
importance weights
. Despite that they hold
→