Feb, 2018

更加健壮的双重偏差离线评估

TL;DR本文针对强化学习中的离策略评估问题,提出了一种名为MRDR的更加鲁棒的Doubly Robust 估计方法,该方法通过最小化DR估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。